贝尔曼方程

本文将使用贝尔曼方程推导强化学习中的 State value functionQ function

1、一些概念

1.1、回报(Return)

智能体的目标是最大化回报。通常,回报需要定义一个折扣因子 $\gamma$,回报函数如下:

1.2、策略(Policy)

描述的是在某一状态 $s$ 下采取何种动作 $a$ 的概率,显然有:

1.3、State value function

State value function描述的是在策略 $\pi$ 下该状态 $s$ 下有多好。

1.4、Q function

Q function 描述的是在策略 $\pi$ 下,在状态 $s$ 采取动作 $a$ 有多好。


2、使用贝尔曼方程求解 State value function 和 Q function

贝尔曼方程(Bellman equation)是理查德·贝尔曼推导出来的,可以帮助我们解决马尔可夫决策问题(MDP)。

首先我们定义 $P_{ss’}^{a}$ 表示从状态 $s$ 到 状态 $s’$ 采取动作 $a$ 的概率是多少:

定义 $R_{ss’}^{a}$ 表示从状态 $s$ 到 状态 $s’$ 采取动作 $a$ 的获得的期望回报是多少:

下面就可以推导出贝尔曼方程了,考虑贝尔曼方程的 State value function。根据回报的定义,我们可以将 State value function 改写为:

将第一个回报 $r_{t+1}$ 取出来,则有

即 $V^\pi(s)=\mathbb{E}_{\pi}[r_{t+1}+\lambda V^\pi(s’)|s_t=s]$

我们可以通过对所有可能的动作所有可能的返回状态进行求和,将我们的方程改写为:

同理可推导 Q function 为:

文章作者: Sshpark
文章链接: http://sshpark.com.cn/2019/09/15/贝尔曼方程/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Sshpark