Wanneer Tools falen: Benchmarken van dynamische herplanning en anomalieherstel in LLM-agenten

Samenvatting

Bestaande benchmarks evalueren gereedschapsgeïntegreerd redeneren (TIR) in LLM's op basis van geïdealiseerde 'ideaalpaden', waarbij grotendeels wordt voorbijgegaan aan realistische gereedschapsfouten. We introduceren ToolMaze, een benchmark voor dynamische padontdekking en foutherstel in TIR-agenten. Om systematische herplanning te onderscheiden van blinde trial-and-error, hanteert ToolMaze een tweedimensionaal ontwerp: op DAG gebaseerde topologische complexiteit en een 2 × 2-taxonomie van gereedschapsverstoringen (expliciet/impliciet, tijdelijk/blijvend). Evaluaties tonen aan dat verstoringen de prestaties van bijna alle modellen aantasten, met de scherpste dalingen bij impliciete semantische fouten. Gedreven door systemisch overmatig vertrouwen in gecorrumpeerde outputs daalt het herstelpercentage na verstoring (PRR) in deze scenario's met ongeveer 37%, terwijl complexe topologieën agenten in vruchteloze trial-and-error-lussen vastzetten. Cruciaal is dat agentische fouttolerantie 3,66 keer langzamer verbetert met modelschaal dan basale taakuitvoering, wat aantoont dat dynamische herplanning een apart knelpunt vormt dat niet wordt aangepakt door modelschaling of prompting. Gegevens en code zijn beschikbaar op https://github.com/Zhudongsheng75/ToolMaze.

English

Existing benchmarks evaluate Tool-Integrated Reasoning (TIR) in LLMs on idealized ''happy paths'', largely overlooking real-world tool failures. We introduce ToolMaze, a benchmark for dynamic path discovery and error recovery in TIR agents. To separate systematic replanning from blind trial-and-error, ToolMaze adopts a two-dimensional design: DAG-based topological complexity and a 2 times 2 taxonomy of tool perturbations (explicit/implicit, transient/permanent). Evaluations show that perturbations degrade performance across nearly all models, with the sharpest drops under implicit semantic failures. Driven by systemic over-trust in corrupted outputs, Perturbation Recovery Rate (PRR) plummets by around 37\% in these scenarios, while complex topologies trap agents in futile trial-and-error loops. Crucially, agentic fault-tolerance improves with model scale 3.66times slower than basic task execution, highlighting dynamic replanning as a distinct bottleneck unaddressed by model scaling or prompting. Data and code are available at https://github.com/Zhudongsheng75/ToolMaze.