Обход судьи: Нечестная цепочка рассуждений может подорвать оценку агентов
Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation
January 21, 2026
Авторы: Muhammad Khalifa, Lajanugen Logeswaran, Jaekyeom Kim, Sungryull Sohn, Yunxiang Zhang, Moontae Lee, Hao Peng, Lu Wang, Honglak Lee
cs.AI
Аннотация
Крупные языковые модели (LLM) все чаще используются в качестве судей для оценки производительности агентов, особенно в непроверяемых условиях, где суждения основываются на траекториях агентов, включая цепочки рассуждений (CoT). Эта парадигма неявно предполагает, что CoT агента достоверно отражает как его внутренние рассуждения, так и состояние окружающей среды. Мы показываем, что это предположение ненадежно: LLM-судьи крайне подвержены манипуляциям с трассировкой рассуждений агентов. Систематически переписывая CoT агентов при фиксированных действиях и наблюдениях, мы демонстрируем, что одних только манипуляций с рассуждениями достаточно для увеличения ложноположительных результатов современных VLM-судей на величину до 90% на 800 траекториях, охватывающих разнообразные веб-задачи. Мы исследуем стратегии манипуляций, от стилевых подходов, изменяющих лишь представление рассуждений, до содержательных подходов, фабрикующих сигналы о прогрессе задачи, и обнаруживаем, что содержательные манипуляции последовательно более эффективны. Мы оцениваем методы на основе промптов и масштабирование вычислительных ресурсов на этапе судейства, которые снижают, но не полностью устраняют уязвимость к манипуляциям. Наши результаты выявляют фундаментальную уязвимость в оценке на основе LLM и подчеркивают необходимость механизмов судейства, которые проверяют утверждения рассуждений на основе наблюдаемых доказательств.
English
Large language models (LLMs) are increasingly used as judges to evaluate agent performance, particularly in non-verifiable settings where judgments rely on agent trajectories including chain-of-thought (CoT) reasoning. This paradigm implicitly assumes that the agent's CoT faithfully reflects both its internal reasoning and the underlying environment state. We show this assumption is brittle: LLM judges are highly susceptible to manipulation of agent reasoning traces. By systematically rewriting agent CoTs while holding actions and observations fixed, we demonstrate that manipulated reasoning alone can inflate false positive rates of state-of-the-art VLM judges by up to 90% across 800 trajectories spanning diverse web tasks. We study manipulation strategies spanning style-based approaches that alter only the presentation of reasoning and content-based approaches that fabricate signals of task progress, and find that content-based manipulations are consistently more effective. We evaluate prompting-based techniques and scaling judge-time compute, which reduce but do not fully eliminate susceptibility to manipulation. Our findings reveal a fundamental vulnerability in LLM-based evaluation and highlight the need for judging mechanisms that verify reasoning claims against observable evidence.