Wenn Agenten zu früh festlegen: Diagnose vorzeitigen Commitments bei LLM-Agenten

Zusammenfassung

Langfristige LLM-Agenten können auf leise Weise scheitern: Sie legen sich früh auf eine Interpretation der Evidenz fest und verteidigen diese dann für den Rest des Laufs. Wir nennen dies vorzeitige Festlegung. Die Bewertung der endgültigen Antwort übersieht diese Fehlerart, da sie nur die Antwort sieht, nicht aber, ob der Prozess bereits auf einen stabilen Pfad kollabiert ist. Wir definieren repräsentationale Festlegung als die Konvergenz verborgener Zustände über verschiedene Durchläufe hinweg zu einem festen Denkschritt und nutzen sie als frühes Diagnostikum für die Konsistenz der Trajektorie. Bei Llama-3.1-70B, das ReAct auf HotpotQA ausführt, sagt die Ähnlichkeit der verborgenen Zustände in Schritt 4 die nachgelagerte Verhaltenskonsistenz voraus (r = -0,35, partielles r = -0,45), mit einer lokalisierten zeitlichen und schichtenspezifischen Signatur. Das Signal reproduziert sich über Qwen-2.5-72B und Phi-3-14B sowie auf StrategyQA (r = -0,83). Es bildet nicht die Korrektheit ab: Fragen mit festgelegter falscher und festgelegter richtiger Antwort lassen sich in der Aktivierungsähnlichkeit nicht trennen. Diese Grenze ist zentral für die Behauptung. Festlegung gibt an, ob sich ein Agent festgelegt hat, nicht, ob er richtig liegt. Ein Laufzeitmonitor erkennt inkonsistente Trajektorien aus verborgenen Zuständen mit einer AUC bis zu 0,97 (0,85–0,88 unter einer strengeren Aufteilung), und eine Eingabeintervention reduziert die Verhaltensvarianz um 28% gegenüber einer token-angepassten Kontrolle, während die Genauigkeit statistisch unverändert bleibt. Wir testen außerdem, ob das Signal die Selbstkonsistenzberechnung lenken kann; bei einem schwierigeren Benchmark hilft es nur mäßig und wird von einer einfacheren ausgabebasierten Basislinie erreicht. Das Ergebnis ist ein Diagnostikum für einen versteckten Prozessfehler mit klaren Grenzen, nicht ein allgemeiner Hebel für die Genauigkeit.

English

Long-horizon LLM agents can fail quietly: they settle on one reading of the evidence early, then spend the rest of the run defending it. We call this premature commitment. Final-answer scoring misses the failure mode because it sees only the answer, not whether the process has already collapsed to a stable path. We define representational commitment as cross-run hidden-state convergence at a fixed reasoning step, and use it as an early diagnostic of trajectory consistency. On Llama-3.1-70B running ReAct on HotpotQA, step-4 hidden-state similarity predicts downstream behavioral consistency (r = -0.35, partial r = -0.45), with a localized temporal and layer-wise signature. The signal replicates across Qwen-2.5-72B and Phi-3-14B, and on StrategyQA (r = -0.83). It does not track correctness: committed-wrong and committed-correct questions are not separable in activation similarity. That boundary is central to the claim. Commitment tells us whether an agent has settled, not whether it is right. A runtime monitor detects inconsistent trajectories from hidden states at AUROC up to 0.97 (0.85--0.88 under a stricter split), and a prompting intervention cuts behavioral variance by 28% against a token-matched control while leaving accuracy statistically unchanged. We also test whether the signal can route self-consistency compute; on a harder benchmark it helps only modestly and is matched by a simpler output-based baseline. The result is a diagnostic for a hidden process failure, with clear limits rather than a general accuracy lever.