Lorsque les outils échouent : Évaluation comparative de la replanification dynamique et de la reprise après anomalie dans les agents LLM.

Résumé

Les référentiels existants évaluent le Raisonnement Intégré à l'Outillage (RIO) dans les LLMs sur des « parcours idéaux » idéalisés, négligeant largement les défaillances d'outils réelles. Nous présentons ToolMaze, un référentiel pour la découverte dynamique de chemins et la récupération d'erreurs dans les agents RIO. Afin de distinguer la replanification systématique du simple essai-erreur aveugle, ToolMaze adopte une conception bidimensionnelle : une complexité topologique basée sur des DAG et une taxonomie 2×2 des perturbations d'outils (explicites/implicites, transitoires/permanentes). Les évaluations montrent que les perturbations dégradent les performances de presque tous les modèles, avec les baisses les plus marquées lors des défaillances sémantiques implicites. Sous l'effet d'une confiance systémique excessive dans les sorties corrompues, le Taux de Récupération des Perturbations (TRP) chute d'environ 37 % dans ces scénarios, tandis que les topologies complexes piègent les agents dans des boucles d'essai-erreur infructueuses. Crucialement, la tolérance aux pannes agentive s'améliore avec la taille du modèle 3,66 fois plus lentement que l'exécution de tâches de base, ce qui souligne que la replanification dynamique constitue un goulot d'étranglement distinct, non résolu par la mise à l'échelle des modèles ou l'amorçage. Les données et le code sont disponibles à l'adresse https://github.com/Zhudongsheng75/ToolMaze.

English

Existing benchmarks evaluate Tool-Integrated Reasoning (TIR) in LLMs on idealized ''happy paths'', largely overlooking real-world tool failures. We introduce ToolMaze, a benchmark for dynamic path discovery and error recovery in TIR agents. To separate systematic replanning from blind trial-and-error, ToolMaze adopts a two-dimensional design: DAG-based topological complexity and a 2 times 2 taxonomy of tool perturbations (explicit/implicit, transient/permanent). Evaluations show that perturbations degrade performance across nearly all models, with the sharpest drops under implicit semantic failures. Driven by systemic over-trust in corrupted outputs, Perturbation Recovery Rate (PRR) plummets by around 37\% in these scenarios, while complex topologies trap agents in futile trial-and-error loops. Crucially, agentic fault-tolerance improves with model scale 3.66times slower than basic task execution, highlighting dynamic replanning as a distinct bottleneck unaddressed by model scaling or prompting. Data and code are available at https://github.com/Zhudongsheng75/ToolMaze.