Reward Hacking in Reinforcement Learning

Date: November 28, 2024 | Estimated Reading Time: 37 min | Author: Lilian Weng

Reward hacking occurs when a reinforcement learning (RL) agent exploits flaws or ambiguities in the reward function to achieve high rewards, without genuinely learning or completing the intended task....