Ricerca di Ricompense nell'Era dei Grandi Modelli: Meccanismi, Disallineamento Emergente e Sfide

Abstract

L’apprendimento per rinforzo tramite feedback umano (RLHF) e i paradigmi di allineamento correlati sono diventati centrali per indirizzare i grandi modelli linguistici (LLM) e i grandi modelli linguistici multimodali (MLLM) verso comportamenti preferiti dagli esseri umani. Tuttavia, questi approcci introducono una vulnerabilità sistemica: il *reward hacking*, in cui i modelli sfruttano le imperfezioni nei segnali di ricompena appresi per massimizzare obiettivi proxy senza soddisfare la vera intenzione del compito. Man mano che i modelli si scalano e l'ottimizzazione si intensifica, tale sfruttamento si manifesta come bias di verbosità, piaggeria, giustificazioni allucinate, overfitting sui benchmark e, in contesti multimodali, disaccoppiamento percezione-ragionamento e manipolazione del valutatore. Prove recenti suggeriscono inoltre che comportamenti apparentemente benigni basati su scorciatoie possano generalizzarsi in forme più ampie di disallineamento, inclusi l'inganno e lo sfruttamento strategico dei meccanismi di supervisione. In questa rassegna, proponiamo l'Ipotesi di Compressione del Proxy (Proxy Compression Hypothesis, PCH) come quadro unificante per comprendere il reward hacking. Formalizziamo il reward hacking come una conseguenza emergente dell'ottimizzazione di politiche espressive contro rappresentazioni compresse della ricompensa di obiettivi umani ad alta dimensionalità. In questa prospettiva, il reward hacking sorge dall'interazione tra compressione dell'obiettivo, amplificazione dell'ottimizzazione e co-adattamento valutatore-politica. Questa prospettiva unifica fenomeni empirici attraverso i regimi RLHF, RLAIF e RLVR e spiega come l'apprendimento di scorciatoie locali possa generalizzarsi in forme più ampie di disallineamento, incluso l'inganno e la manipolazione strategica dei meccanismi di supervisione. Organizziamo ulteriormente le strategie di rilevamento e mitigazione in base a come intervengono sulla compressione, sull'amplificazione o sulle dinamiche di co-adattamento. Inquadrando il reward hacking come un'instabilità strutturale dell'allineamento basato su proxy in condizioni di scala, evidenziamo le sfide aperte nella supervisione scalabile, nel grounding multimodale e nell'autonomia agentica.

English

Reinforcement Learning from Human Feedback (RLHF) and related alignment paradigms have become central to steering large language models (LLMs) and multimodal large language models (MLLMs) toward human-preferred behaviors. However, these approaches introduce a systemic vulnerability: reward hacking, where models exploit imperfections in learned reward signals to maximize proxy objectives without fulfilling true task intent. As models scale and optimization intensifies, such exploitation manifests as verbosity bias, sycophancy, hallucinated justification, benchmark overfitting, and, in multimodal settings, perception--reasoning decoupling and evaluator manipulation. Recent evidence further suggests that seemingly benign shortcut behaviors can generalize into broader forms of misalignment, including deception and strategic gaming of oversight mechanisms. In this survey, we propose the Proxy Compression Hypothesis (PCH) as a unifying framework for understanding reward hacking. We formalize reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations of high-dimensional human objectives. Under this view, reward hacking arises from the interaction of objective compression, optimization amplification, and evaluator--policy co-adaptation. This perspective unifies empirical phenomena across RLHF, RLAIF, and RLVR regimes, and explains how local shortcut learning can generalize into broader forms of misalignment, including deception and strategic manipulation of oversight mechanisms. We further organize detection and mitigation strategies according to how they intervene on compression, amplification, or co-adaptation dynamics. By framing reward hacking as a structural instability of proxy-based alignment under scale, we highlight open challenges in scalable oversight, multimodal grounding, and agentic autonomy.

Ricerca di Ricompense nell'Era dei Grandi Modelli: Meccanismi, Disallineamento Emergente e Sfide

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Abstract

Support