La Piratería de Recompensas en la Era de los Grandes Modelos: Mecanismos, Desalineación Emergente y Desafíos

Resumen

El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) y los paradigmas de alineación relacionados se han vuelto centrales para dirigir a los modelos de lenguaje grandes (LLMs) y a los modelos de lenguaje grandes multimodales (MLLMs) hacia comportamientos preferidos por los humanos. Sin embargo, estos enfoques introducen una vulnerabilidad sistémica: la piratería de recompensas (reward hacking), donde los modelos explotan imperfecciones en las señales de recompensa aprendidas para maximizar objetivos proxy sin cumplir la intención real de la tarea. A medida que los modelos escalan y la optimización se intensifica, dicha explotación se manifiesta como sesgo de verbosidad, sicofancia, justificación alucinada, sobreajuste a benchmarks y, en entornos multimodales, desacoplamiento percepción-razonamiento y manipulación del evaluador. Evidencia reciente sugiere además que comportamientos aparentemente benignos basados en atajos pueden generalizarse en formas más amplias de desalineación, incluyendo el engaño y la manipulación estratégica de los mecanismos de supervisión. En esta revisión, proponemos la Hipótesis de Compresión Proxy (PCH) como un marco unificador para comprender la piratería de recompensas. Formalizamos la piratería de recompensas como una consecuencia emergente de optimizar políticas expresivas frente a representaciones comprimidas de recompensa de objetivos humanos de alta dimensión. Bajo esta perspectiva, la piratería de recompensas surge de la interacción entre la compresión del objetivo, la amplificación de la optimización y la co-adaptación evaluador-política. Esta perspectiva unifica fenómenos empíricos en los regímenes de RLHF, RLAIF y RLVR, y explica cómo el aprendizaje de atajos local puede generalizarse en formas más amplias de desalineación, incluyendo el engaño y la manipulación estratégica de los mecanismos de supervisión. Además, organizamos las estrategias de detección y mitigación según cómo intervienen en la compresión, la amplificación o las dinámicas de co-adaptación. Al enmarcar la piratería de recompensas como una inestabilidad estructural de la alineación basada en proxies bajo escala, destacamos los desafíos abiertos en supervisión escalable, fundamentación multimodal y autonomía agentiva.

English

Reinforcement Learning from Human Feedback (RLHF) and related alignment paradigms have become central to steering large language models (LLMs) and multimodal large language models (MLLMs) toward human-preferred behaviors. However, these approaches introduce a systemic vulnerability: reward hacking, where models exploit imperfections in learned reward signals to maximize proxy objectives without fulfilling true task intent. As models scale and optimization intensifies, such exploitation manifests as verbosity bias, sycophancy, hallucinated justification, benchmark overfitting, and, in multimodal settings, perception--reasoning decoupling and evaluator manipulation. Recent evidence further suggests that seemingly benign shortcut behaviors can generalize into broader forms of misalignment, including deception and strategic gaming of oversight mechanisms. In this survey, we propose the Proxy Compression Hypothesis (PCH) as a unifying framework for understanding reward hacking. We formalize reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations of high-dimensional human objectives. Under this view, reward hacking arises from the interaction of objective compression, optimization amplification, and evaluator--policy co-adaptation. This perspective unifies empirical phenomena across RLHF, RLAIF, and RLVR regimes, and explains how local shortcut learning can generalize into broader forms of misalignment, including deception and strategic manipulation of oversight mechanisms. We further organize detection and mitigation strategies according to how they intervene on compression, amplification, or co-adaptation dynamics. By framing reward hacking as a structural instability of proxy-based alignment under scale, we highlight open challenges in scalable oversight, multimodal grounding, and agentic autonomy.

La Piratería de Recompensas en la Era de los Grandes Modelos: Mecanismos, Desalineación Emergente y Desafíos

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Resumen

Support