Cuando las herramientas fallan: Evaluación comparativa de la replanificación dinámica y la recuperación de anomalías en agentes de LLM

Resumen

Los benchmarks existentes evalúan el razonamiento integrado con herramientas (TIR) en LLMs bajo "caminos felices" idealizados, ignorando en gran medida los fallos reales de las herramientas. Presentamos ToolMaze, un benchmark para el descubrimiento dinámico de rutas y la recuperación de errores en agentes TIR. Para diferenciar la replanificación sistemática del ensayo y error ciego, ToolMaze adopta un diseño bidimensional: complejidad topológica basada en DAG y una taxonomía 2 × 2 de perturbaciones de herramientas (explícitas/implícitas, transitorias/permanentes). Las evaluaciones muestran que las perturbaciones degradan el rendimiento en casi todos los modelos, con las caídas más pronunciadas bajo fallos semánticos implícitos. Impulsada por una excesiva confianza sistémica en salidas corruptas, la Tasa de Recuperación ante Perturbaciones (PRR) se desploma alrededor del 37% en estos escenarios, mientras que las topologías complejas atrapan a los agentes en bucles de ensayo y error inútiles. De manera crucial, la tolerancia a fallos de los agentes mejora con la escala del modelo 3,66 veces más lentamente que la ejecución básica de tareas, lo que destaca la replanificación dinámica como un cuello de botella distintivo no abordado por el escalado del modelo ni por las indicaciones. Los datos y el código están disponibles en https://github.com/Zhudongsheng75/ToolMaze.

English

Existing benchmarks evaluate Tool-Integrated Reasoning (TIR) in LLMs on idealized ''happy paths'', largely overlooking real-world tool failures. We introduce ToolMaze, a benchmark for dynamic path discovery and error recovery in TIR agents. To separate systematic replanning from blind trial-and-error, ToolMaze adopts a two-dimensional design: DAG-based topological complexity and a 2 times 2 taxonomy of tool perturbations (explicit/implicit, transient/permanent). Evaluations show that perturbations degrade performance across nearly all models, with the sharpest drops under implicit semantic failures. Driven by systemic over-trust in corrupted outputs, Perturbation Recovery Rate (PRR) plummets by around 37\% in these scenarios, while complex topologies trap agents in futile trial-and-error loops. Crucially, agentic fault-tolerance improves with model scale 3.66times slower than basic task execution, highlighting dynamic replanning as a distinct bottleneck unaddressed by model scaling or prompting. Data and code are available at https://github.com/Zhudongsheng75/ToolMaze.