Um Token para Enganar LLM-como-Juiz

Resumo

Modelos de recompensa generativos (também conhecidos como LLMs-como-juízes), que utilizam modelos de linguagem de grande escala (LLMs) para avaliar a qualidade de respostas, estão sendo cada vez mais adotados no aprendizado por reforço com recompensas verificáveis (RLVR). Eles são frequentemente preferidos em relação a métricas rígidas baseadas em regras, especialmente para tarefas complexas de raciocínio que envolvem saídas de formato livre. Nesse paradigma, um LLM é tipicamente solicitado a comparar uma resposta candidata com uma referência de verdade absoluta e atribuir uma recompensa binária indicando correção. Apesar da aparente simplicidade dessa tarefa de comparação, descobrimos que os modelos de recompensa generativos exibem vulnerabilidades surpreendentes a manipulações superficiais: símbolos que não são palavras (por exemplo, ":" ou ".") ou iniciadores de raciocínio como "Processo de pensamento:" e "Vamos resolver este problema passo a passo." podem frequentemente levar a recompensas falsas positivas. Demonstramos que essa fraqueza é generalizada entre LLMs, conjuntos de dados e formatos de prompt, representando uma séria ameaça para paradigmas algorítmicos centrais que dependem de modelos de recompensa generativos, como amostragem por rejeição, otimização de preferências e RLVR. Para mitigar esse problema, introduzimos uma estratégia simples, porém eficaz, de aumento de dados e treinamos um novo modelo de recompensa generativo com robustez substancialmente melhorada. Nossas descobertas destacam a necessidade urgente de métodos de avaliação baseados em LLMs mais confiáveis. Disponibilizamos nosso modelo de recompensa robusto e de domínio geral, juntamente com seus dados de treinamento sintéticos, em https://huggingface.co/sarosavo/Master-RM e https://huggingface.co/datasets/sarosavo/Master-RM.

English

Generative reward models (also known as LLMs-as-judges), which use large language models (LLMs) to evaluate answer quality, are increasingly adopted in reinforcement learning with verifiable rewards (RLVR). They are often preferred over rigid rule-based metrics, especially for complex reasoning tasks involving free-form outputs. In this paradigm, an LLM is typically prompted to compare a candidate answer against a ground-truth reference and assign a binary reward indicating correctness. Despite the seeming simplicity of this comparison task, we find that generative reward models exhibit surprising vulnerabilities to superficial manipulations: non-word symbols (e.g., ":" or ".") or reasoning openers like "Thought process:" and "Let's solve this problem step by step." can often lead to false positive rewards. We demonstrate that this weakness is widespread across LLMs, datasets, and prompt formats, posing a serious threat for core algorithmic paradigms that rely on generative reward models, such as rejection sampling, preference optimization, and RLVR. To mitigate this issue, we introduce a simple yet effective data augmentation strategy and train a new generative reward model with substantially improved robustness. Our findings highlight the urgent need for more reliable LLM-based evaluation methods. We release our robust, general-domain reward model and its synthetic training data at https://huggingface.co/sarosavo/Master-RM and https://huggingface.co/datasets/sarosavo/Master-RM.

Um Token para Enganar LLM-como-Juiz

One Token to Fool LLM-as-a-Judge

Resumo

Support