Wenn Tools versagen: Benchmarking dynamischer Neuplanung und Anomaliebehebung in LLM-Agenten

Zusammenfassung

Bestehende Benchmarks bewerten das werkzeugintegrierte Denken (Tool-Integrated Reasoning, TIR) in LLMs anhand idealisierter „Happy Paths“ und übersehen dabei weitgehend reale Werkzeugfehler. Wir führen ToolMaze ein, einen Benchmark für dynamische Pfadfindung und Fehlerbehebung in TIR-Agenten. Um systematische Neuplanung von blinder Versuch-und-Irrtum-Strategie zu trennen, verwendet ToolMaze ein zweidimensionales Design: DAG-basierte topologische Komplexität und eine 2×2-Taxonomie von Werkzeugstörungen (explizit/implizit, vorübergehend/dauerhaft). Evaluierungen zeigen, dass Störungen die Leistung fast aller Modelle verschlechtern, wobei die stärksten Einbußen bei impliziten semantischen Fehlern auftreten. Getrieben durch systemisches übermäßiges Vertrauen in korrupte Ausgaben sinkt die Störungs-Wiederherstellungsrate (Perturbation Recovery Rate, PRR) in diesen Szenarien um rund 37 %, während komplexe Topologien Agenten in fruchtlosen Versuch-und-Irrtum-Schleifen gefangen halten. Entscheidend ist, dass die agentische Fehlertoleranz mit der Modellskalierung 3,66-mal langsamer zunimmt als die grundlegende Aufgabenausführung – dies zeigt, dass dynamische Neuplanung einen eigenen Engpass darstellt, der weder durch Modellskalierung noch durch Prompting behoben wird. Daten und Code sind verfügbar unter https://github.com/Zhudongsheng75/ToolMaze.

English

Existing benchmarks evaluate Tool-Integrated Reasoning (TIR) in LLMs on idealized ''happy paths'', largely overlooking real-world tool failures. We introduce ToolMaze, a benchmark for dynamic path discovery and error recovery in TIR agents. To separate systematic replanning from blind trial-and-error, ToolMaze adopts a two-dimensional design: DAG-based topological complexity and a 2 times 2 taxonomy of tool perturbations (explicit/implicit, transient/permanent). Evaluations show that perturbations degrade performance across nearly all models, with the sharpest drops under implicit semantic failures. Driven by systemic over-trust in corrupted outputs, Perturbation Recovery Rate (PRR) plummets by around 37\% in these scenarios, while complex topologies trap agents in futile trial-and-error loops. Crucially, agentic fault-tolerance improves with model scale 3.66times slower than basic task execution, highlighting dynamic replanning as a distinct bottleneck unaddressed by model scaling or prompting. Data and code are available at https://github.com/Zhudongsheng75/ToolMaze.