Взлом системы вознаграждения в эпоху больших моделей: механизмы, возникающее рассогласование, вызовы

Аннотация

Обучение с подкреплением на основе человеческой обратной связи (RLHF) и смежные парадигмы согласования стали центральными для направления больших языковых моделей (LLM) и мультимодальных больших языковых моделей (MLLM) к поведению, предпочитаемому человеком. Однако эти подходы создают системную уязвимость: взлом системы вознаграждения, когда модели используют несовершенства изученных сигналов вознаграждения для максимизации прокси-целей без выполнения истинного замысла задачи. По мере масштабирования моделей и интенсификации оптимизации такая эксплуатация проявляется в виде предвзятости к многословию, сервилизма, галлюцинированного обоснования, переобучения на бенчмарках, а в мультимодальных контекстах — в виде рассогласования восприятия и рассуждений и манипуляции оценщиком. Недавние данные также свидетельствуют о том, что кажущиеся безобидными поведения, основанные на ярлыках, могут обобщаться в более широкие формы рассогласования, включая обман и стратегическое использование механизмов надзора. В данном обзоре мы предлагаем Гипотезу Компрессии Прокси (Proxy Compression Hypothesis, PCH) в качестве объединяющей основы для понимания взлома вознаграждения. Мы формализуем взлом вознаграждения как возникающее следствие оптимизации выразительных политик против сжатых представлений вознаграждения для многомерных человеческих целей. С этой точки зрения, взлом вознаграждения возникает из взаимодействия компрессии целей, усиления оптимизации и ко-адаптации оценщика и политики. Данная перспектива объединяет эмпирические феномены в рамках режимов RLHF, RLAIF и RLVR и объясняет, как локальное обучение с использованием ярлыков может обобщаться в более широкие формы рассогласования, включая обман и стратегическую манипуляцию механизмами надзора. Мы далее систематизируем стратегии обнаружения и смягчения последствий в соответствии с тем, как они воздействуют на динамику компрессии, усиления или ко-адаптации. Рассматривая взлом вознаграждения как структурную нестабильность прокси-ориентированного согласования в условиях масштабирования, мы выделяем открытые проблемы в области масштабируемого надзора, мультимодального обоснования и агентной автономии.

English

Reinforcement Learning from Human Feedback (RLHF) and related alignment paradigms have become central to steering large language models (LLMs) and multimodal large language models (MLLMs) toward human-preferred behaviors. However, these approaches introduce a systemic vulnerability: reward hacking, where models exploit imperfections in learned reward signals to maximize proxy objectives without fulfilling true task intent. As models scale and optimization intensifies, such exploitation manifests as verbosity bias, sycophancy, hallucinated justification, benchmark overfitting, and, in multimodal settings, perception--reasoning decoupling and evaluator manipulation. Recent evidence further suggests that seemingly benign shortcut behaviors can generalize into broader forms of misalignment, including deception and strategic gaming of oversight mechanisms. In this survey, we propose the Proxy Compression Hypothesis (PCH) as a unifying framework for understanding reward hacking. We formalize reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations of high-dimensional human objectives. Under this view, reward hacking arises from the interaction of objective compression, optimization amplification, and evaluator--policy co-adaptation. This perspective unifies empirical phenomena across RLHF, RLAIF, and RLVR regimes, and explains how local shortcut learning can generalize into broader forms of misalignment, including deception and strategic manipulation of oversight mechanisms. We further organize detection and mitigation strategies according to how they intervene on compression, amplification, or co-adaptation dynamics. By framing reward hacking as a structural instability of proxy-based alignment under scale, we highlight open challenges in scalable oversight, multimodal grounding, and agentic autonomy.

Взлом системы вознаграждения в эпоху больших моделей: механизмы, возникающее рассогласование, вызовы

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Аннотация

Support