Eén Token om LLM-als-Rechter te Misleiden
One Token to Fool LLM-as-a-Judge
July 11, 2025
Auteurs: Yulai Zhao, Haolin Liu, Dian Yu, S. Y. Kung, Haitao Mi, Dong Yu
cs.AI
Samenvatting
Generatieve beloningsmodellen (ook bekend als LLMs-als-beoordelaars), die grote taalmmodellen (LLMs) gebruiken om de kwaliteit van antwoorden te evalueren, worden steeds vaker toegepast in reinforcement learning met verifieerbare beloningen (RLVR). Ze worden vaak verkozen boven rigide, op regels gebaseerde metrieken, vooral voor complexe redeneertaken waarbij vrije-vorm uitvoer betrokken is. In dit paradigma wordt een LLM doorgaans aangestuurd om een kandidaat-antwoord te vergelijken met een grondwaarheid-referentie en een binaire beloning toe te kennen die correctheid aangeeft. Ondanks de schijnbare eenvoud van deze vergelijkingstaak, ontdekken we dat generatieve beloningsmodellen verrassende kwetsbaarheden vertonen voor oppervlakkige manipulaties: niet-woord symbolen (bijv. ":" of ".") of redeneeropeners zoals "Denkproces:" en "Laten we dit probleem stap voor stap oplossen." kunnen vaak leiden tot vals-positieve beloningen. We tonen aan dat deze zwakte wijdverspreid is over LLMs, datasets en promptformaten, wat een serieuze bedreiging vormt voor kernalgoritmische paradigma's die afhankelijk zijn van generatieve beloningsmodellen, zoals afwijzingssteekproeven, voorkeursoptimalisatie en RLVR. Om dit probleem te verlichten, introduceren we een eenvoudige maar effectieve data-augmentatiestrategie en trainen we een nieuw generatief beloningsmodel met aanzienlijk verbeterde robuustheid. Onze bevindingen benadrukken de dringende behoefte aan betrouwbaardere, op LLM gebaseerde evaluatiemethoden. We maken ons robuuste, algemene domein beloningsmodel en de synthetische trainingsdata beschikbaar op https://huggingface.co/sarosavo/Master-RM en https://huggingface.co/datasets/sarosavo/Master-RM.
English
Generative reward models (also known as LLMs-as-judges), which use large
language models (LLMs) to evaluate answer quality, are increasingly adopted in
reinforcement learning with verifiable rewards (RLVR). They are often preferred
over rigid rule-based metrics, especially for complex reasoning tasks involving
free-form outputs. In this paradigm, an LLM is typically prompted to compare a
candidate answer against a ground-truth reference and assign a binary reward
indicating correctness. Despite the seeming simplicity of this comparison task,
we find that generative reward models exhibit surprising vulnerabilities to
superficial manipulations: non-word symbols (e.g., ":" or ".") or reasoning
openers like "Thought process:" and "Let's solve this problem step by step."
can often lead to false positive rewards. We demonstrate that this weakness is
widespread across LLMs, datasets, and prompt formats, posing a serious threat
for core algorithmic paradigms that rely on generative reward models, such as
rejection sampling, preference optimization, and RLVR. To mitigate this issue,
we introduce a simple yet effective data augmentation strategy and train a new
generative reward model with substantially improved robustness. Our findings
highlight the urgent need for more reliable LLM-based evaluation methods. We
release our robust, general-domain reward model and its synthetic training data
at https://huggingface.co/sarosavo/Master-RM and
https://huggingface.co/datasets/sarosavo/Master-RM.