Когда инструменты подводят: бенчмаркинг динамического перепланирования и восстановления после аномалий в агентах на основе LLM

Аннотация

Существующие эталоны оценивают интегрированное с инструментами рассуждение (Tool-Integrated Reasoning, TIR) в больших языковых моделях (БЯМ) на идеализированных «сценариях успеха», в значительной степени игнорируя реальные сбои инструментов. Мы представляем ToolMaze — эталон для динамического обнаружения путей и восстановления после ошибок в TIR-агентах. Чтобы отделить систематическое перепланирование от слепого метода проб и ошибок, ToolMaze использует двумерную структуру: топологическую сложность на основе DAG и таксономию возмущений инструментов размером 2×2 (явные/неявные, транзиторные/перманентные). Оценки показывают, что возмущения снижают производительность практически всех моделей, причем наиболее резкое падение наблюдается при неявных семантических сбоях. Вследствие системного чрезмерного доверия к искаженным результатам коэффициент восстановления после возмущений (Perturbation Recovery Rate, PRR) в таких сценариях падает примерно на 37%, в то время как сложные топологии заставляют агентов застревать в бесполезных циклах проб и ошибок. Критически важно, что агентная отказоустойчивость улучшается с ростом масштаба модели в 3,66 раза медленнее, чем базовое выполнение задач, что подчеркивает динамическое перепланирование как отдельное узкое место, не устраняемое ни масштабированием модели, ни подсказками. Данные и код доступны по адресу https://github.com/Zhudongsheng75/ToolMaze.

English

Existing benchmarks evaluate Tool-Integrated Reasoning (TIR) in LLMs on idealized ''happy paths'', largely overlooking real-world tool failures. We introduce ToolMaze, a benchmark for dynamic path discovery and error recovery in TIR agents. To separate systematic replanning from blind trial-and-error, ToolMaze adopts a two-dimensional design: DAG-based topological complexity and a 2 times 2 taxonomy of tool perturbations (explicit/implicit, transient/permanent). Evaluations show that perturbations degrade performance across nearly all models, with the sharpest drops under implicit semantic failures. Driven by systemic over-trust in corrupted outputs, Perturbation Recovery Rate (PRR) plummets by around 37\% in these scenarios, while complex topologies trap agents in futile trial-and-error loops. Crucially, agentic fault-tolerance improves with model scale 3.66times slower than basic task execution, highlighting dynamic replanning as a distinct bottleneck unaddressed by model scaling or prompting. Data and code are available at https://github.com/Zhudongsheng75/ToolMaze.