Den Richter austricksen: Unzuverlässige Denkketten können die Bewertung von Agenten untergraben

Zusammenfassung

Große Sprachmodelle (LLMs) werden zunehmend als Bewertungssysteme eingesetzt, um die Leistung von Agenten zu beurteilen, insbesondere in nicht verifizierbaren Kontexten, in denen die Bewertungen auf Agententrajektorien inklusive Chain-of-Thought (CoT)-Argumentation basieren. Dieses Paradigma geht implizit davon aus, dass die CoT des Agenten sowohl seine interne Argumentation als auch den Zustand der zugrundeliegenden Umgebung getreu widerspiegelt. Wir zeigen, dass diese Annahme anfällig ist: LLM-Bewerter sind hochgradig anfällig für Manipulationen der Argumentationsspuren von Agenten. Durch systematisches Umschreiben der Agenten-CoTs bei konstant gehaltenen Aktionen und Beobachtungen demonstrieren wir, dass manipulierte Argumentation allein die Falsch-Positiv-Raten modernster VLM-Bewerter über 800 Trajektorien hinweg, die verschiedene Web-Aufgaben umfassen, um bis zu 90% erhöhen kann. Wir untersuchen Manipulationsstrategien, die von stilbasierten Ansätzen, die nur die Darstellung der Argumentation verändern, bis hin zu inhaltsbasierten Ansätzen, die Anzeichen von Aufgabenfortschritt fälschen, reichen, und stellen fest, dass inhaltsbasierte Manipulationen durchweg wirksamer sind. Wir evaluieren prompt-basierte Techniken und die Skalierung der Rechenleistung zur Bewertungszeit, welche die Anfälligkeit für Manipulationen verringern, aber nicht vollständig beseitigen. Unsere Ergebnisse decken eine grundlegende Schwachstelle in der LLM-basierten Evaluation auf und unterstreichen die Notwendigkeit von Bewertungsmechanismen, die Argumentationsbehauptungen anhand beobachtbarer Evidenz überprüfen.

English

Large language models (LLMs) are increasingly used as judges to evaluate agent performance, particularly in non-verifiable settings where judgments rely on agent trajectories including chain-of-thought (CoT) reasoning. This paradigm implicitly assumes that the agent's CoT faithfully reflects both its internal reasoning and the underlying environment state. We show this assumption is brittle: LLM judges are highly susceptible to manipulation of agent reasoning traces. By systematically rewriting agent CoTs while holding actions and observations fixed, we demonstrate that manipulated reasoning alone can inflate false positive rates of state-of-the-art VLM judges by up to 90% across 800 trajectories spanning diverse web tasks. We study manipulation strategies spanning style-based approaches that alter only the presentation of reasoning and content-based approaches that fabricate signals of task progress, and find that content-based manipulations are consistently more effective. We evaluate prompting-based techniques and scaling judge-time compute, which reduce but do not fully eliminate susceptibility to manipulation. Our findings reveal a fundamental vulnerability in LLM-based evaluation and highlight the need for judging mechanisms that verify reasoning claims against observable evidence.

Den Richter austricksen: Unzuverlässige Denkketten können die Bewertung von Agenten untergraben

Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation

Zusammenfassung

Support