ChatPaper.aiChatPaper

Un seul jeton pour tromper LLM-comme-juge

One Token to Fool LLM-as-a-Judge

July 11, 2025
papers.authors: Yulai Zhao, Haolin Liu, Dian Yu, S. Y. Kung, Haitao Mi, Dong Yu
cs.AI

papers.abstract

Les modèles de récompense génératifs (également appelés LLMs-as-judges), qui utilisent des modèles de langage de grande taille (LLMs) pour évaluer la qualité des réponses, sont de plus en plus adoptés dans l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Ils sont souvent préférés aux métriques rigides basées sur des règles, en particulier pour les tâches de raisonnement complexes impliquant des sorties libres. Dans ce paradigme, un LLM est généralement sollicité pour comparer une réponse candidate à une référence de vérité terrain et attribuer une récompense binaire indiquant la justesse. Malgré la simplicité apparente de cette tâche de comparaison, nous constatons que les modèles de récompense génératifs présentent des vulnérabilités surprenantes face à des manipulations superficielles : des symboles non lexicaux (par exemple, ":" ou ".") ou des amorces de raisonnement comme "Processus de pensée :" et "Résolvons ce problème étape par étape." peuvent souvent entraîner des récompenses faussement positives. Nous démontrons que cette faiblesse est répandue parmi les LLMs, les ensembles de données et les formats d'invite, constituant une menace sérieuse pour les paradigmes algorithmiques centraux qui reposent sur des modèles de récompense génératifs, tels que l'échantillonnage par rejet, l'optimisation des préférences et le RLVR. Pour atténuer ce problème, nous introduisons une stratégie d'augmentation de données simple mais efficace et entraînons un nouveau modèle de récompense génératif avec une robustesse considérablement améliorée. Nos résultats soulignent le besoin urgent de méthodes d'évaluation basées sur les LLMs plus fiables. Nous publions notre modèle de récompense robuste et polyvalent ainsi que ses données d'entraînement synthétiques sur https://huggingface.co/sarosavo/Master-RM et https://huggingface.co/datasets/sarosavo/Master-RM.
English
Generative reward models (also known as LLMs-as-judges), which use large language models (LLMs) to evaluate answer quality, are increasingly adopted in reinforcement learning with verifiable rewards (RLVR). They are often preferred over rigid rule-based metrics, especially for complex reasoning tasks involving free-form outputs. In this paradigm, an LLM is typically prompted to compare a candidate answer against a ground-truth reference and assign a binary reward indicating correctness. Despite the seeming simplicity of this comparison task, we find that generative reward models exhibit surprising vulnerabilities to superficial manipulations: non-word symbols (e.g., ":" or ".") or reasoning openers like "Thought process:" and "Let's solve this problem step by step." can often lead to false positive rewards. We demonstrate that this weakness is widespread across LLMs, datasets, and prompt formats, posing a serious threat for core algorithmic paradigms that rely on generative reward models, such as rejection sampling, preference optimization, and RLVR. To mitigate this issue, we introduce a simple yet effective data augmentation strategy and train a new generative reward model with substantially improved robustness. Our findings highlight the urgent need for more reliable LLM-based evaluation methods. We release our robust, general-domain reward model and its synthetic training data at https://huggingface.co/sarosavo/Master-RM and https://huggingface.co/datasets/sarosavo/Master-RM.
PDF253July 14, 2025