ChatPaper.aiChatPaper

Un solo token para engañar a LLM-como-juez

One Token to Fool LLM-as-a-Judge

July 11, 2025
Autores: Yulai Zhao, Haolin Liu, Dian Yu, S. Y. Kung, Haitao Mi, Dong Yu
cs.AI

Resumen

Los modelos generativos de recompensa (también conocidos como LLMs-como-jueces), que utilizan modelos de lenguaje de gran escala (LLMs) para evaluar la calidad de las respuestas, están siendo adoptados cada vez más en el aprendizaje por refuerzo con recompensas verificables (RLVR). A menudo se prefieren sobre métricas rígidas basadas en reglas, especialmente para tareas de razonamiento complejo que involucran salidas de formato libre. En este paradigma, típicamente se solicita a un LLM que compare una respuesta candidata con una referencia de verdad fundamental y asigne una recompensa binaria que indique su corrección. A pesar de la aparente simplicidad de esta tarea de comparación, encontramos que los modelos generativos de recompensa exhiben vulnerabilidades sorprendentes a manipulaciones superficiales: símbolos que no son palabras (por ejemplo, ":" o ".") o frases introductorias de razonamiento como "Proceso de pensamiento:" y "Resolvamos este problema paso a paso" a menudo pueden llevar a recompensas falsas positivas. Demostramos que esta debilidad está ampliamente presente en LLMs, conjuntos de datos y formatos de instrucción, lo que representa una seria amenaza para paradigmas algorítmicos centrales que dependen de modelos generativos de recompensa, como el muestreo por rechazo, la optimización de preferencias y RLVR. Para mitigar este problema, introducimos una estrategia de aumento de datos simple pero efectiva y entrenamos un nuevo modelo generativo de recompensa con una robustez sustancialmente mejorada. Nuestros hallazgos resaltan la necesidad urgente de métodos de evaluación basados en LLMs más confiables. Publicamos nuestro modelo de recompensa robusto y de dominio general, junto con sus datos de entrenamiento sintéticos, en https://huggingface.co/sarosavo/Master-RM y https://huggingface.co/datasets/sarosavo/Master-RM.
English
Generative reward models (also known as LLMs-as-judges), which use large language models (LLMs) to evaluate answer quality, are increasingly adopted in reinforcement learning with verifiable rewards (RLVR). They are often preferred over rigid rule-based metrics, especially for complex reasoning tasks involving free-form outputs. In this paradigm, an LLM is typically prompted to compare a candidate answer against a ground-truth reference and assign a binary reward indicating correctness. Despite the seeming simplicity of this comparison task, we find that generative reward models exhibit surprising vulnerabilities to superficial manipulations: non-word symbols (e.g., ":" or ".") or reasoning openers like "Thought process:" and "Let's solve this problem step by step." can often lead to false positive rewards. We demonstrate that this weakness is widespread across LLMs, datasets, and prompt formats, posing a serious threat for core algorithmic paradigms that rely on generative reward models, such as rejection sampling, preference optimization, and RLVR. To mitigate this issue, we introduce a simple yet effective data augmentation strategy and train a new generative reward model with substantially improved robustness. Our findings highlight the urgent need for more reliable LLM-based evaluation methods. We release our robust, general-domain reward model and its synthetic training data at https://huggingface.co/sarosavo/Master-RM and https://huggingface.co/datasets/sarosavo/Master-RM.
PDF253July 14, 2025