予測と報酬の神経基盤(D07 文脈)

高校生向けのやさしい解説

ドーパミンが反応するのは『ご褒美そのもの』ではなく『予想とのズレ』だった——という有名な発見の D07(神経科学)文脈での参照ページです。D09-S07 と同じ論文。詳細は D09-S07 ページを参照。

概要

Schultz, Dayan, Montague (1997) は、霊長類のドーパミンニューロンが「報酬予測誤差」を符号化しているという電気生理学的証拠と、TD 学習による計算論的解釈を統合した。VTA・黒質のドーパミンニューロンは三様式(活性化・無反応・抑制)を示し、TD 学習の誤差項 δ(t) = r(t) + γV(t+1) − V(t) と定量的に一致する。詳細は D09-S07 ページを参照。

主要概念

D09 文脈版(D09_schultz_1997)と同じ内容。

  • ドーパミンは報酬予測誤差を符号化する
  • TD 学習モデルとの定量的一致
  • 条件刺激への応答転移と blocking
  • 価値面(value surface)と行動方針

プロジェクトデザインとの関連

D07(神経科学)文脈では、本論文は脳の計算論的視座の中核として位置付けられる。Friston の自由エネルギー原理(D02-S14)、Clark の予測処理(D08-S13)と並ぶ「予測する脳」群の参照点。

書誌情報

出典メモ

  • cs 側読解: creation-space/knowledge/source-notes/D07/D07-S07_schultz-dayan-montague-1997.md
  • 本ページは D09-S07 と同論文の D07 文脈版(pd#81 Phase C-1c)