Ein Token, um LLM-as-a-Judge zu täuschen
One Token to Fool LLM-as-a-Judge
July 11, 2025
papers.authors: Yulai Zhao, Haolin Liu, Dian Yu, S. Y. Kung, Haitao Mi, Dong Yu
cs.AI
papers.abstract
Generative Belohnungsmodelle (auch bekannt als LLMs-as-judges), die große Sprachmodelle (LLMs) zur Bewertung der Antwortqualität verwenden, werden zunehmend im Bereich des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) eingesetzt. Sie werden oft starren regelbasierten Metriken vorgezogen, insbesondere bei komplexen Denkaufgaben, die freiformulierte Ausgaben beinhalten. In diesem Paradigma wird ein LLM typischerweise dazu aufgefordert, eine Kandidatenantwort mit einer Referenzlösung zu vergleichen und eine binäre Belohnung zuzuweisen, die die Korrektheit anzeigt. Trotz der scheinbaren Einfachheit dieser Vergleichsaufgabe stellen wir fest, dass generative Belohnungsmodelle überraschende Anfälligkeiten gegenüber oberflächlichen Manipulationen aufweisen: Nicht-Wort-Symbole (z. B. „:“ oder „.“) oder Denkanstöße wie „Denkprozess:“ und „Lassen Sie uns dieses Problem Schritt für Schritt lösen.“ können oft zu falsch positiven Belohnungen führen. Wir zeigen, dass diese Schwäche weit verbreitet ist und verschiedene LLMs, Datensätze und Prompt-Formate betrifft, was eine ernsthafte Bedrohung für zentrale algorithmische Paradigmen darstellt, die auf generativen Belohnungsmodellen basieren, wie z. B. Rejection Sampling, Präferenzoptimierung und RLVR. Um dieses Problem zu mildern, führen wir eine einfache, aber effektive Datenaugmentationsstrategie ein und trainieren ein neues generatives Belohnungsmodell mit deutlich verbesserter Robustheit. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit für zuverlässigere LLM-basierte Evaluierungsmethoden. Wir veröffentlichen unser robustes, allgemein anwendbares Belohnungsmodell und dessen synthetische Trainingsdaten unter https://huggingface.co/sarosavo/Master-RM und https://huggingface.co/datasets/sarosavo/Master-RM.
English
Generative reward models (also known as LLMs-as-judges), which use large
language models (LLMs) to evaluate answer quality, are increasingly adopted in
reinforcement learning with verifiable rewards (RLVR). They are often preferred
over rigid rule-based metrics, especially for complex reasoning tasks involving
free-form outputs. In this paradigm, an LLM is typically prompted to compare a
candidate answer against a ground-truth reference and assign a binary reward
indicating correctness. Despite the seeming simplicity of this comparison task,
we find that generative reward models exhibit surprising vulnerabilities to
superficial manipulations: non-word symbols (e.g., ":" or ".") or reasoning
openers like "Thought process:" and "Let's solve this problem step by step."
can often lead to false positive rewards. We demonstrate that this weakness is
widespread across LLMs, datasets, and prompt formats, posing a serious threat
for core algorithmic paradigms that rely on generative reward models, such as
rejection sampling, preference optimization, and RLVR. To mitigate this issue,
we introduce a simple yet effective data augmentation strategy and train a new
generative reward model with substantially improved robustness. Our findings
highlight the urgent need for more reliable LLM-based evaluation methods. We
release our robust, general-domain reward model and its synthetic training data
at https://huggingface.co/sarosavo/Master-RM and
https://huggingface.co/datasets/sarosavo/Master-RM.