ChatPaper.aiChatPaper

Точное прогнозирование сбоев в агентах не гарантирует эффективного предотвращения отказов.

Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

February 3, 2026
Авторы: Rakshith Vasudev, Melisa Russak, Dan Bikel, Waseem Alshikh
cs.AI

Аннотация

Распространено предположение, что проактивные вмешательства моделей-критиков на основе больших языковых моделей (LLM) повышают надежность, однако их эффекты в условиях реального развертывания изучены слабо. Мы демонстрируем, что бинарный критик на основе LLM с высокой оффлайн-точностью (AUROC 0.94) тем не менее может вызывать значительную деградацию производительности: на одной модели наблюдается коллапс на 26 процентных пунктов (п.п.), тогда как на другую модель влияние близко к нулю. Эта вариабельность показывает, что одной лишь точности критика LLM недостаточно для определения безопасности вмешательства. Мы выявляем компромисс между нарушением и восстановлением: вмешательства могут исправлять неудачные траектории, но также и нарушать траектории, которые изначально были бы успешными. Основываясь на этом наблюдении, мы предлагаем предразвертываемый тест, который использует небольшой пилот из 50 задач для оценки вероятной пользы или вреда вмешательства без необходимости полного развертывания. На различных бенчмарках тест точно предсказывает результаты: вмешательство ухудшает производительность на задачах с высоким исходным успехом (от 0 до -26 п.п.), но дает скромное улучшение на бенчмарке ALFWorld с высоким уровнем неудач (+2.8 п.п., p=0.014). Таким образом, ключевая ценность нашего подхода заключается в определении ситуаций, когда вмешательство нецелесообразно, что позволяет предотвратить серьезные регрессии до этапа развертывания.
English
Proactive interventions by LLM critic models are often assumed to improve reliability, yet their effects at deployment time are poorly understood. We show that a binary LLM critic with strong offline accuracy (AUROC 0.94) can nevertheless cause severe performance degradation, inducing a 26 percentage point (pp) collapse on one model while affecting another by near zero pp. This variability demonstrates that LLM critic accuracy alone is insufficient to determine whether intervention is safe. We identify a disruption-recovery tradeoff: interventions may recover failing trajectories but also disrupt trajectories that would have succeeded. Based on this insight, we propose a pre-deployment test that uses a small pilot of 50 tasks to estimate whether intervention is likely to help or harm, without requiring full deployment. Across benchmarks, the test correctly anticipates outcomes: intervention degrades performance on high-success tasks (0 to -26 pp), while yielding a modest improvement on the high-failure ALFWorld benchmark (+2.8 pp, p=0.014). The primary value of our framework is therefore identifying when not to intervene, preventing severe regressions before deployment.
PDF232February 7, 2026