Ein Token, um LLM-as-a-Judge zu täuschen

papers.abstract

Generative Belohnungsmodelle (auch bekannt als LLMs-as-judges), die große Sprachmodelle (LLMs) zur Bewertung der Antwortqualität verwenden, werden zunehmend im Bereich des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) eingesetzt. Sie werden oft starren regelbasierten Metriken vorgezogen, insbesondere bei komplexen Denkaufgaben, die freiformulierte Ausgaben beinhalten. In diesem Paradigma wird ein LLM typischerweise dazu aufgefordert, eine Kandidatenantwort mit einer Referenzlösung zu vergleichen und eine binäre Belohnung zuzuweisen, die die Korrektheit anzeigt. Trotz der scheinbaren Einfachheit dieser Vergleichsaufgabe stellen wir fest, dass generative Belohnungsmodelle überraschende Anfälligkeiten gegenüber oberflächlichen Manipulationen aufweisen: Nicht-Wort-Symbole (z. B. „:“ oder „.“) oder Denkanstöße wie „Denkprozess:“ und „Lassen Sie uns dieses Problem Schritt für Schritt lösen.“ können oft zu falsch positiven Belohnungen führen. Wir zeigen, dass diese Schwäche weit verbreitet ist und verschiedene LLMs, Datensätze und Prompt-Formate betrifft, was eine ernsthafte Bedrohung für zentrale algorithmische Paradigmen darstellt, die auf generativen Belohnungsmodellen basieren, wie z. B. Rejection Sampling, Präferenzoptimierung und RLVR. Um dieses Problem zu mildern, führen wir eine einfache, aber effektive Datenaugmentationsstrategie ein und trainieren ein neues generatives Belohnungsmodell mit deutlich verbesserter Robustheit. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit für zuverlässigere LLM-basierte Evaluierungsmethoden. Wir veröffentlichen unser robustes, allgemein anwendbares Belohnungsmodell und dessen synthetische Trainingsdaten unter https://huggingface.co/sarosavo/Master-RM und https://huggingface.co/datasets/sarosavo/Master-RM.

English

Generative reward models (also known as LLMs-as-judges), which use large language models (LLMs) to evaluate answer quality, are increasingly adopted in reinforcement learning with verifiable rewards (RLVR). They are often preferred over rigid rule-based metrics, especially for complex reasoning tasks involving free-form outputs. In this paradigm, an LLM is typically prompted to compare a candidate answer against a ground-truth reference and assign a binary reward indicating correctness. Despite the seeming simplicity of this comparison task, we find that generative reward models exhibit surprising vulnerabilities to superficial manipulations: non-word symbols (e.g., ":" or ".") or reasoning openers like "Thought process:" and "Let's solve this problem step by step." can often lead to false positive rewards. We demonstrate that this weakness is widespread across LLMs, datasets, and prompt formats, posing a serious threat for core algorithmic paradigms that rely on generative reward models, such as rejection sampling, preference optimization, and RLVR. To mitigate this issue, we introduce a simple yet effective data augmentation strategy and train a new generative reward model with substantially improved robustness. Our findings highlight the urgent need for more reliable LLM-based evaluation methods. We release our robust, general-domain reward model and its synthetic training data at https://huggingface.co/sarosavo/Master-RM and https://huggingface.co/datasets/sarosavo/Master-RM.

Ein Token, um LLM-as-a-Judge zu täuschen

One Token to Fool LLM-as-a-Judge

papers.abstract

Support