强化学习（10）：Actor-Critic 方法

Introduction

Actor-Critic 方法将值函数近似和策略梯度相结合的方法，它由两个部分组成：

这两个部分相互合作，Actor 采取 action 与环境进行交互，Critic 评估 Actor 的表现，指导 Actor 的下一个 action。

在策略梯度算法中，我们使用随机梯度上升最大化目标函数 $J(\theta)$：

$$\theta_{t+1} = \theta_t + \alpha \nabla_\theta \ln \pi(a_t | s_t, \theta_t) q_t(s_t, a_t).$$

该随机梯度上升公式就是 Actor，负责 policy update；估计 $q_t(s_t, a_t)$ 的算法就是 Critic，负责 policy evaluation。

上一节课介绍的 REINFORCE 算法使用 MC learning 来估计 $q_t(s_t, a_t)$，