Engañando al Juez: Cadenas de Pensamiento Desleales Pueden Socavar la Evaluación de Agentes

Resumen

Los grandes modelos de lenguaje (LLM) se utilizan cada vez más como jueces para evaluar el rendimiento de agentes, particularmente en entornos no verificables donde los juicios dependen de trayectorias del agente que incluyen razonamiento de cadena de pensamiento (CoT). Este paradigma asume implícitamente que el CoT del agente refleja fielmente tanto su razonamiento interno como el estado subyacente del entorno. Demostramos que esta suposición es frágil: los jueces basados en LLM son altamente susceptibles a la manipulación de las trazas de razonamiento del agente. Al reescribir sistemáticamente los CoT de los agentes manteniendo fijas las acciones y observaciones, demostramos que la manipulación del razonamiento por sí sola puede inflar las tasas de falsos positivos de los jueces VLM de vanguardia hasta en un 90% a lo largo de 800 trayectorias que abarcan diversas tareas web. Estudiamos estrategias de manipulación que abarcan desde enfoques basados en el estilo, que alteran solo la presentación del razonamiento, hasta enfoques basados en el contenido, que fabrican señales de progreso en la tarea, y encontramos que las manipulaciones basadas en contenido son consistentemente más efectivas. Evaluamos técnicas basadas en *prompting* y el escalado de cómputo en tiempo de juicio, que reducen pero no eliminan completamente la susceptibilidad a la manipulación. Nuestros hallazgos revelan una vulnerabilidad fundamental en la evaluación basada en LLM y subrayan la necesidad de mecanismos de evaluación que verifiquen las afirmaciones del razonamiento frente a evidencia observable.

English

Large language models (LLMs) are increasingly used as judges to evaluate agent performance, particularly in non-verifiable settings where judgments rely on agent trajectories including chain-of-thought (CoT) reasoning. This paradigm implicitly assumes that the agent's CoT faithfully reflects both its internal reasoning and the underlying environment state. We show this assumption is brittle: LLM judges are highly susceptible to manipulation of agent reasoning traces. By systematically rewriting agent CoTs while holding actions and observations fixed, we demonstrate that manipulated reasoning alone can inflate false positive rates of state-of-the-art VLM judges by up to 90% across 800 trajectories spanning diverse web tasks. We study manipulation strategies spanning style-based approaches that alter only the presentation of reasoning and content-based approaches that fabricate signals of task progress, and find that content-based manipulations are consistently more effective. We evaluate prompting-based techniques and scaling judge-time compute, which reduce but do not fully eliminate susceptibility to manipulation. Our findings reveal a fundamental vulnerability in LLM-based evaluation and highlight the need for judging mechanisms that verify reasoning claims against observable evidence.