Two Dimensions of Value: Dopamine Neurons Represent Reward But NotAversiveness
Christopher D. Fiorillo
Science 2 August 2013: Vol. 341 no. 6145 pp. 546-549
SNcやVTAのドパミンニューロンが報酬予測誤差の情報をコードしていることは、良く知られていることですが、多くの研究は「正の報酬」についての研究であり、「負の報酬」つまり罰については詳細な検証がされていませんでした。そして、多くの研究は明示的にまた暗黙的に報酬と罰は正反対の存在として扱ってきました。
確かに、強化学習モデルの報酬予測誤差理論では報酬も罰も、区別することなく一軸の中の一点として表現できます。また実際の動物の行動としては接近vs回避行動のどちらかしか起こりません。
しかしながら、今回Fiorilloが示した結果はドパミンは正の報酬しかコードしておらず、罰の情報はコードしていないというものです。そして、報酬の軸と罰の軸の二軸があると主張しています。
PDF SLIDE
No comments:
Post a Comment