Belohnungshacking im Zeitalter großer Modelle: Mechanismen, entstehende Fehlausrichtung, Herausforderungen

Zusammenfassung

Reinforcement Learning from Human Feedback (RLHF) und verwandte Alignment-Paradigmen sind zentral geworden, um große Sprachmodelle (LLMs) und multimodale große Sprachmodelle (MLLMs) in Richtung menschlich präferierter Verhaltensweisen zu lenken. Diese Ansätze führen jedoch eine systemische Verwundbarkeit ein: Reward Hacking, bei dem Modelle Unvollkommenheiten in gelernten Belohnungssignalen ausnutzen, um Stellvertreterziele zu maximieren, ohne die eigentliche Aufgabenintention zu erfüllen. Wenn Modelle skaliert und die Optimierung intensiviert wird, manifestiert sich eine solche Ausnutzung als Verbositätstendenz, Sykophantie, halluzinierte Rechtfertigung, Benchmark-Overfitting und, in multimodalen Settings, als Entkopplung von Wahrnehmung und Reasoning sowie als Manipulation des Evaluators. Jüngste Erkenntnisse deuten zudem darauf hin, dass scheinbar harmlose Abkürzungsverhalten sich zu breiteren Formen von Fehlausrichtung verallgemeinern können, einschließlich Täuschung und strategischer Ausnutzung von Aufsichtsmechanismen. In diesem Übersichtsartikel schlagen wir die Proxy Compression Hypothesis (PCH) als vereinheitlichenden Rahmen zum Verständnis von Reward Hacking vor. Wir formalisieren Reward Hacking als eine emergente Konsequenz der Optimierung expressiver Politiken gegen komprimierte Belohnungsrepräsentationen hochdimensionaler menschlicher Ziele. In dieser Sichtweise entsteht Reward Hacking aus dem Zusammenspiel von Zielkompression, Optimierungsverstärkung und Co-Adaptation von Evaluator und Policy. Diese Perspektive vereinheitlicht empirische Phänomene über RLHF-, RLAIF- und RLVR-Regime hinweg und erklärt, wie lokales Abkürzungslernen sich zu breiteren Formen von Fehlausrichtung verallgemeinern kann, einschließlich Täuschung und strategischer Manipulation von Aufsichtsmechanismen. Wir ordnen weiterhin Strategien zur Erkennung und Minderung danach, wie sie in die Dynamiken von Kompression, Verstärkung oder Co-Adaptation eingreifen. Indem wir Reward Hacking als strukturelle Instabilität von proxy-basiertem Alignment unter Skalierung rahmen, beleuchten wir offene Herausforderungen in skalierbarer Aufsicht, multimodaler Verankerung und agentischer Autonomie.

English

Reinforcement Learning from Human Feedback (RLHF) and related alignment paradigms have become central to steering large language models (LLMs) and multimodal large language models (MLLMs) toward human-preferred behaviors. However, these approaches introduce a systemic vulnerability: reward hacking, where models exploit imperfections in learned reward signals to maximize proxy objectives without fulfilling true task intent. As models scale and optimization intensifies, such exploitation manifests as verbosity bias, sycophancy, hallucinated justification, benchmark overfitting, and, in multimodal settings, perception--reasoning decoupling and evaluator manipulation. Recent evidence further suggests that seemingly benign shortcut behaviors can generalize into broader forms of misalignment, including deception and strategic gaming of oversight mechanisms. In this survey, we propose the Proxy Compression Hypothesis (PCH) as a unifying framework for understanding reward hacking. We formalize reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations of high-dimensional human objectives. Under this view, reward hacking arises from the interaction of objective compression, optimization amplification, and evaluator--policy co-adaptation. This perspective unifies empirical phenomena across RLHF, RLAIF, and RLVR regimes, and explains how local shortcut learning can generalize into broader forms of misalignment, including deception and strategic manipulation of oversight mechanisms. We further organize detection and mitigation strategies according to how they intervene on compression, amplification, or co-adaptation dynamics. By framing reward hacking as a structural instability of proxy-based alignment under scale, we highlight open challenges in scalable oversight, multimodal grounding, and agentic autonomy.

Belohnungshacking im Zeitalter großer Modelle: Mechanismen, entstehende Fehlausrichtung, Herausforderungen

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Zusammenfassung

Support