Un Token per Ingannare LLM-come-Giudice

Abstract

I modelli generativi di ricompensa (noti anche come LLM-as-judges), che utilizzano modelli linguistici di grandi dimensioni (LLM) per valutare la qualità delle risposte, sono sempre più adottati nell'apprendimento per rinforzo con ricompense verificabili (RLVR). Sono spesso preferiti rispetto a metriche rigide basate su regole, specialmente per compiti di ragionamento complesso che coinvolgono output in forma libera. In questo paradigma, un LLM viene tipicamente sollecitato a confrontare una risposta candidata con un riferimento di verità e ad assegnare una ricompensa binaria che indica la correttezza. Nonostante l'apparente semplicità di questo compito di confronto, scopriamo che i modelli generativi di ricompensa mostrano vulnerabilità sorprendenti a manipolazioni superficiali: simboli non alfabetici (ad esempio, ":" o ".") o frasi introduttive di ragionamento come "Processo di pensiero:" e "Risolviamo questo problema passo dopo passo" possono spesso portare a ricompense false positive. Dimostriamo che questa debolezza è diffusa tra LLM, dataset e formati di prompt, rappresentando una seria minaccia per i paradigmi algoritmici fondamentali che si basano su modelli generativi di ricompensa, come il campionamento di rifiuto, l'ottimizzazione delle preferenze e RLVR. Per mitigare questo problema, introduciamo una strategia di aumento dei dati semplice ma efficace e addestriamo un nuovo modello generativo di ricompensa con una robustezza sostanzialmente migliorata. Le nostre scoperte evidenziano la necessità urgente di metodi di valutazione basati su LLM più affidabili. Rilasciamo il nostro modello di ricompensa robusto e di dominio generale insieme ai suoi dati di addestramento sintetici su https://huggingface.co/sarosavo/Master-RM e https://huggingface.co/datasets/sarosavo/Master-RM.

English

Generative reward models (also known as LLMs-as-judges), which use large language models (LLMs) to evaluate answer quality, are increasingly adopted in reinforcement learning with verifiable rewards (RLVR). They are often preferred over rigid rule-based metrics, especially for complex reasoning tasks involving free-form outputs. In this paradigm, an LLM is typically prompted to compare a candidate answer against a ground-truth reference and assign a binary reward indicating correctness. Despite the seeming simplicity of this comparison task, we find that generative reward models exhibit surprising vulnerabilities to superficial manipulations: non-word symbols (e.g., ":" or ".") or reasoning openers like "Thought process:" and "Let's solve this problem step by step." can often lead to false positive rewards. We demonstrate that this weakness is widespread across LLMs, datasets, and prompt formats, posing a serious threat for core algorithmic paradigms that rely on generative reward models, such as rejection sampling, preference optimization, and RLVR. To mitigate this issue, we introduce a simple yet effective data augmentation strategy and train a new generative reward model with substantially improved robustness. Our findings highlight the urgent need for more reliable LLM-based evaluation methods. We release our robust, general-domain reward model and its synthetic training data at https://huggingface.co/sarosavo/Master-RM and https://huggingface.co/datasets/sarosavo/Master-RM.

Un Token per Ingannare LLM-come-Giudice

One Token to Fool LLM-as-a-Judge

Abstract

Support