Quando as Ferramentas Falham: Benchmarking de Replanejamento Dinâmico e Recuperação de Anomalias em Agentes LLM

Resumo

Os benchmarks existentes avaliam o Raciocínio Integrado a Ferramentas (RIT) em LLMs em "caminhos felizes" idealizados, ignorando em grande parte as falhas reais de ferramentas. Apresentamos o ToolMaze, um benchmark para descoberta dinâmica de caminhos e recuperação de erros em agentes RIT. Para separar o replanejamento sistemático da tentativa e erro cega, o ToolMaze adota uma abordagem bidimensional: complexidade topológica baseada em DAG e uma taxonomia 2×2 de perturbações de ferramentas (explícitas/implícitas, transitórias/permanentes). As avaliações mostram que as perturbações degradam o desempenho em quase todos os modelos, com as quedas mais acentuadas sob falhas semânticas implícitas. Impulsionada por uma confiança excessiva sistêmica em saídas corrompidas, a Taxa de Recuperação de Perturbações (TRP) cai cerca de 37% nesses cenários, enquanto topologias complexas prendem os agentes em ciclos fúteis de tentativa e erro. Crucialmente, a tolerância a falhas agentiva melhora com a escala do modelo 3,66 vezes mais lentamente do que a execução básica de tarefas, destacando o replanejamento dinâmico como um gargalo distinto não abordado pelo escalonamento de modelos ou por engenharia de prompt. Dados e código estão disponíveis em https://github.com/Zhudongsheng75/ToolMaze.

English

Existing benchmarks evaluate Tool-Integrated Reasoning (TIR) in LLMs on idealized ''happy paths'', largely overlooking real-world tool failures. We introduce ToolMaze, a benchmark for dynamic path discovery and error recovery in TIR agents. To separate systematic replanning from blind trial-and-error, ToolMaze adopts a two-dimensional design: DAG-based topological complexity and a 2 times 2 taxonomy of tool perturbations (explicit/implicit, transient/permanent). Evaluations show that perturbations degrade performance across nearly all models, with the sharpest drops under implicit semantic failures. Driven by systemic over-trust in corrupted outputs, Perturbation Recovery Rate (PRR) plummets by around 37\% in these scenarios, while complex topologies trap agents in futile trial-and-error loops. Crucially, agentic fault-tolerance improves with model scale 3.66times slower than basic task execution, highlighting dynamic replanning as a distinct bottleneck unaddressed by model scaling or prompting. Data and code are available at https://github.com/Zhudongsheng75/ToolMaze.