Un Token per Ingannare LLM-come-Giudice
One Token to Fool LLM-as-a-Judge
July 11, 2025
Autori: Yulai Zhao, Haolin Liu, Dian Yu, S. Y. Kung, Haitao Mi, Dong Yu
cs.AI
Abstract
I modelli generativi di ricompensa (noti anche come LLM-as-judges), che utilizzano modelli linguistici di grandi dimensioni (LLM) per valutare la qualità delle risposte, sono sempre più adottati nell'apprendimento per rinforzo con ricompense verificabili (RLVR). Sono spesso preferiti rispetto a metriche rigide basate su regole, specialmente per compiti di ragionamento complesso che coinvolgono output in forma libera. In questo paradigma, un LLM viene tipicamente sollecitato a confrontare una risposta candidata con un riferimento di verità e ad assegnare una ricompensa binaria che indica la correttezza. Nonostante l'apparente semplicità di questo compito di confronto, scopriamo che i modelli generativi di ricompensa mostrano vulnerabilità sorprendenti a manipolazioni superficiali: simboli non alfabetici (ad esempio, ":" o ".") o frasi introduttive di ragionamento come "Processo di pensiero:" e "Risolviamo questo problema passo dopo passo" possono spesso portare a ricompense false positive. Dimostriamo che questa debolezza è diffusa tra LLM, dataset e formati di prompt, rappresentando una seria minaccia per i paradigmi algoritmici fondamentali che si basano su modelli generativi di ricompensa, come il campionamento di rifiuto, l'ottimizzazione delle preferenze e RLVR. Per mitigare questo problema, introduciamo una strategia di aumento dei dati semplice ma efficace e addestriamo un nuovo modello generativo di ricompensa con una robustezza sostanzialmente migliorata. Le nostre scoperte evidenziano la necessità urgente di metodi di valutazione basati su LLM più affidabili. Rilasciamo il nostro modello di ricompensa robusto e di dominio generale insieme ai suoi dati di addestramento sintetici su https://huggingface.co/sarosavo/Master-RM e https://huggingface.co/datasets/sarosavo/Master-RM.
English
Generative reward models (also known as LLMs-as-judges), which use large
language models (LLMs) to evaluate answer quality, are increasingly adopted in
reinforcement learning with verifiable rewards (RLVR). They are often preferred
over rigid rule-based metrics, especially for complex reasoning tasks involving
free-form outputs. In this paradigm, an LLM is typically prompted to compare a
candidate answer against a ground-truth reference and assign a binary reward
indicating correctness. Despite the seeming simplicity of this comparison task,
we find that generative reward models exhibit surprising vulnerabilities to
superficial manipulations: non-word symbols (e.g., ":" or ".") or reasoning
openers like "Thought process:" and "Let's solve this problem step by step."
can often lead to false positive rewards. We demonstrate that this weakness is
widespread across LLMs, datasets, and prompt formats, posing a serious threat
for core algorithmic paradigms that rely on generative reward models, such as
rejection sampling, preference optimization, and RLVR. To mitigate this issue,
we introduce a simple yet effective data augmentation strategy and train a new
generative reward model with substantially improved robustness. Our findings
highlight the urgent need for more reliable LLM-based evaluation methods. We
release our robust, general-domain reward model and its synthetic training data
at https://huggingface.co/sarosavo/Master-RM and
https://huggingface.co/datasets/sarosavo/Master-RM.