Um Token para Enganar LLM-como-Juiz
One Token to Fool LLM-as-a-Judge
July 11, 2025
Autores: Yulai Zhao, Haolin Liu, Dian Yu, S. Y. Kung, Haitao Mi, Dong Yu
cs.AI
Resumo
Modelos de recompensa generativos (também conhecidos como LLMs-como-juízes), que utilizam modelos de linguagem de grande escala (LLMs) para avaliar a qualidade de respostas, estão sendo cada vez mais adotados no aprendizado por reforço com recompensas verificáveis (RLVR). Eles são frequentemente preferidos em relação a métricas rígidas baseadas em regras, especialmente para tarefas complexas de raciocínio que envolvem saídas de formato livre. Nesse paradigma, um LLM é tipicamente solicitado a comparar uma resposta candidata com uma referência de verdade absoluta e atribuir uma recompensa binária indicando correção. Apesar da aparente simplicidade dessa tarefa de comparação, descobrimos que os modelos de recompensa generativos exibem vulnerabilidades surpreendentes a manipulações superficiais: símbolos que não são palavras (por exemplo, ":" ou ".") ou iniciadores de raciocínio como "Processo de pensamento:" e "Vamos resolver este problema passo a passo." podem frequentemente levar a recompensas falsas positivas. Demonstramos que essa fraqueza é generalizada entre LLMs, conjuntos de dados e formatos de prompt, representando uma séria ameaça para paradigmas algorítmicos centrais que dependem de modelos de recompensa generativos, como amostragem por rejeição, otimização de preferências e RLVR. Para mitigar esse problema, introduzimos uma estratégia simples, porém eficaz, de aumento de dados e treinamos um novo modelo de recompensa generativo com robustez substancialmente melhorada. Nossas descobertas destacam a necessidade urgente de métodos de avaliação baseados em LLMs mais confiáveis. Disponibilizamos nosso modelo de recompensa robusto e de domínio geral, juntamente com seus dados de treinamento sintéticos, em https://huggingface.co/sarosavo/Master-RM e https://huggingface.co/datasets/sarosavo/Master-RM.
English
Generative reward models (also known as LLMs-as-judges), which use large
language models (LLMs) to evaluate answer quality, are increasingly adopted in
reinforcement learning with verifiable rewards (RLVR). They are often preferred
over rigid rule-based metrics, especially for complex reasoning tasks involving
free-form outputs. In this paradigm, an LLM is typically prompted to compare a
candidate answer against a ground-truth reference and assign a binary reward
indicating correctness. Despite the seeming simplicity of this comparison task,
we find that generative reward models exhibit surprising vulnerabilities to
superficial manipulations: non-word symbols (e.g., ":" or ".") or reasoning
openers like "Thought process:" and "Let's solve this problem step by step."
can often lead to false positive rewards. We demonstrate that this weakness is
widespread across LLMs, datasets, and prompt formats, posing a serious threat
for core algorithmic paradigms that rely on generative reward models, such as
rejection sampling, preference optimization, and RLVR. To mitigate this issue,
we introduce a simple yet effective data augmentation strategy and train a new
generative reward model with substantially improved robustness. Our findings
highlight the urgent need for more reliable LLM-based evaluation methods. We
release our robust, general-domain reward model and its synthetic training data
at https://huggingface.co/sarosavo/Master-RM and
https://huggingface.co/datasets/sarosavo/Master-RM.