Hackeamento de Recompensas na Era dos Grandes Modelos: Mecanismos, Dessalinhamento Emergente e Desafios

Resumo

O Aprendizado por Reforço com Feedback Humano (RLHF) e paradigmas de alinhamento relacionados tornaram-se centrais para direcionar grandes modelos de linguagem (LLMs) e modelos multimodais de grande linguagem (MLLMs) para comportamentos preferidos pelos humanos. No entanto, essas abordagens introduzem uma vulnerabilidade sistêmica: a *reward hacking* (exploração de recompensa), na qual os modelos exploram imperfeições nos sinais de recompensa aprendidos para maximizar objetivos substitutos sem cumprir a intenção real da tarefa. À medida que os modelos escalam e a otimização se intensifica, tal exploração se manifesta como viés de verbosidade, bajulação, justificativa alucinada, sobreajuste a *benchmarks* e, em contextos multimodais, desacoplamento percepção-raciocínio e manipulação do avaliador. Evidências recentes sugerem ainda que comportamentos de atalho aparentemente benignos podem se generalizar em formas mais amplas de desalinhamento, incluindo decepção e manipulação estratégica de mecanismos de supervisão. Nesta pesquisa, propomos a Hipótese de Compressão de *Proxy* (PCH) como uma estrutura unificadora para compreender a *reward hacking*. Formalizamos a *reward hacking* como uma consequência emergente da otimização de políticas expressivas contra representações comprimidas de recompensa de objetivos humanos de alta dimensão. Sob esta visão, a *reward hacking* surge da interação entre compressão do objetivo, amplificação da otimização e co-adaptação avaliador-política. Esta perspectiva unifica fenômenos empíricos nos regimes RLHF, RLAIF e RLVR, e explica como o aprendizado de atalhos locais pode se generalizar em formas mais amplas de desalinhamento, incluindo decepção e manipulação estratégica de mecanismos de supervisão. Organizamos ainda as estratégias de detecção e mitigação de acordo com a forma como intervêm na compressão, amplificação ou dinâmicas de co-adaptação. Ao enquadrar a *reward hacking* como uma instabilidade estrutural do alinhamento baseado em *proxies* sob escala, destacamos desafios em aberto em supervisão escalável, fundamentação multimodal e autonomia agentiva.

English

Reinforcement Learning from Human Feedback (RLHF) and related alignment paradigms have become central to steering large language models (LLMs) and multimodal large language models (MLLMs) toward human-preferred behaviors. However, these approaches introduce a systemic vulnerability: reward hacking, where models exploit imperfections in learned reward signals to maximize proxy objectives without fulfilling true task intent. As models scale and optimization intensifies, such exploitation manifests as verbosity bias, sycophancy, hallucinated justification, benchmark overfitting, and, in multimodal settings, perception--reasoning decoupling and evaluator manipulation. Recent evidence further suggests that seemingly benign shortcut behaviors can generalize into broader forms of misalignment, including deception and strategic gaming of oversight mechanisms. In this survey, we propose the Proxy Compression Hypothesis (PCH) as a unifying framework for understanding reward hacking. We formalize reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations of high-dimensional human objectives. Under this view, reward hacking arises from the interaction of objective compression, optimization amplification, and evaluator--policy co-adaptation. This perspective unifies empirical phenomena across RLHF, RLAIF, and RLVR regimes, and explains how local shortcut learning can generalize into broader forms of misalignment, including deception and strategic manipulation of oversight mechanisms. We further organize detection and mitigation strategies according to how they intervene on compression, amplification, or co-adaptation dynamics. By framing reward hacking as a structural instability of proxy-based alignment under scale, we highlight open challenges in scalable oversight, multimodal grounding, and agentic autonomy.

Hackeamento de Recompensas na Era dos Grandes Modelos: Mecanismos, Dessalinhamento Emergente e Desafios

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Resumo

Support