Genaue Fehlervorhersage bei Agenten impliziert keine effektive Fehlervermeidung.

papers.abstract

Proaktive Interventionen durch LLM-Kritikermodelle werden oft als Mittel zur Verbesserung der Zuverlässigkeit angesehen, doch ihre Auswirkungen zum Zeitpunkt des Einsatzes sind kaum verstanden. Wir zeigen, dass ein binärer LLM-Kritiker mit hoher Offline-Genauigkeit (AUROC 0,94) dennoch zu erheblichen Leistungseinbußen führen kann: Er verursacht einen Kollaps von 26 Prozentpunkten (PP) bei einem Modell, während er ein anderes Modell nahezu unbeeinflusst lässt (nahe 0 PP). Diese Variabilität zeigt, dass die Genauigkeit des LLM-Kritikers allein nicht ausreicht, um die Sicherheit einer Intervention zu bestimmen. Wir identifizieren einen Zielkonflikt zwischen Unterbrechung und Wiederherstellung: Interventionen können scheiternde Trajektorien retten, aber auch erfolgreiche Trajektorien stören. Aufbauend auf dieser Erkenntnis schlagen wir einen Vorab-Test vor, der anhand eines kleinen Piloten von 50 Aufgaben abschätzt, ob eine Intervention voraussichtlich nützt oder schadet – ohne vollständige Implementierung. Über Benchmarks hinweg sagt der Test Ergebnisse korrekt voraus: Interventionen verschlechtern die Leistung bei Aufgaben mit hoher Erfolgsquote (0 bis -26 PP), führen jedoch zu einer moderaten Verbesserung beim ALFWorld-Benchmark mit hohem Misserfolgsanteil (+2,8 PP, p=0,014). Der Hauptnutzen unseres Frameworks liegt daher darin, Situationen zu identifizieren, in denen nicht interveniert werden sollte, um schwerwiegende Leistungseinbrüche vor dem Einsatz zu verhindern.

English

Proactive interventions by LLM critic models are often assumed to improve reliability, yet their effects at deployment time are poorly understood. We show that a binary LLM critic with strong offline accuracy (AUROC 0.94) can nevertheless cause severe performance degradation, inducing a 26 percentage point (pp) collapse on one model while affecting another by near zero pp. This variability demonstrates that LLM critic accuracy alone is insufficient to determine whether intervention is safe. We identify a disruption-recovery tradeoff: interventions may recover failing trajectories but also disrupt trajectories that would have succeeded. Based on this insight, we propose a pre-deployment test that uses a small pilot of 50 tasks to estimate whether intervention is likely to help or harm, without requiring full deployment. Across benchmarks, the test correctly anticipates outcomes: intervention degrades performance on high-success tasks (0 to -26 pp), while yielding a modest improvement on the high-failure ALFWorld benchmark (+2.8 pp, p=0.014). The primary value of our framework is therefore identifying when not to intervene, preventing severe regressions before deployment.

Genaue Fehlervorhersage bei Agenten impliziert keine effektive Fehlervermeidung.

Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

papers.abstract

Support