action-value function的意思|示意
美 / /
英 / /
行为价值函数
action-value function的网络常见释义
动作值函数 Q-learning学习算法——这是一种通过学习动作值函数(action-value function)完成的强化学习算法,函数采取在给定状态的给定动作,并计算出期望的效用价值,在此后遵循固定的策略。