メモ: 強化学習の勉強シリーズ

概要

・本当に強化学習が理解できているのかが謎だったので教科書の勉強シリーズ(続くとは言っていません^^)

内容と結果

とりあえず参考文献のP150辺りにある図6.6, 6.7あたりを再現しようとしています。
図6.6は似たような結果が出るのですが、図6.7はTD(0)法に関してどうしてもRMSEが落ち着かず。。。
何度読み返してもどのように教科書上で計算が行われているのか理解できなかったのでブログに放流
(アルファ(ステップサイズパラメータ)が違うからなんじゃないんかとか思ったりするんですが)

再現することが目的だったのでソースの可読性とか書き方についてはご愛嬌ということで何卒m(_ _)m

図6.6
140905_fig6.6

図6.7(TD法が暴れん坊将軍の巻)
140905_fig6.7

参考文献

Amazon.co.jp: 強化学習: Richard S.Sutton, Andrew G.Barto, 三上 貞芳, 皆川 雅章: 本
http://www.amazon.co.jp/dp/4627826613

  • はじめまして。

    pythonを学び始めた者です。

    面白いブログですね。

    勉強になります。

    更新楽しみにしています^^

    • Nekopuni

      コメントありがとうございます。私もPythonは学び始めの部分もありますので流し目程度に見て頂ければ幸いですw