ChatPaper.aiChatPaper

A Previsão Precisa de Falhas em Agentes Não Implica uma Prevenção Eficaz de Falhas

Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

February 3, 2026
Autores: Rakshith Vasudev, Melisa Russak, Dan Bikel, Waseem Alshikh
cs.AI

Resumo

As intervenções proativas por modelos críticos de LLM são frequentemente consideradas como melhoradoras da confiabilidade, mas seus efeitos no momento da implantação são pouco compreendidos. Demonstramos que um crítico binário de LLM com alta precisão offline (AUROC 0,94) pode, mesmo assim, causar severa degradação de desempenho, induzindo um colapso de 26 pontos percentuais (pp) em um modelo enquanto afeta outro em quase zero pp. Essa variabilidade demonstra que a precisão do crítico de LLM por si só é insuficiente para determinar se a intervenção é segura. Identificamos uma relação de compensação entre disrupção e recuperação: as intervenções podem recuperar trajetórias com falha, mas também podem interromper trajetórias que teriam sido bem-sucedidas. Com base nessa percepção, propomos um teste pré-implantação que utiliza um pequeno piloto de 50 tarefas para estimar se a intervenção provavelmente ajudará ou prejudicará, sem exigir implantação completa. Em diversos benchmarks, o teste antecipa corretamente os resultados: a intervenção degrada o desempenho em tarefas de alto sucesso (0 a -26 pp), enquanto produz uma melhoria modesta no benchmark ALFWorld de alta falha (+2,8 pp, p=0,014). Portanto, o valor principal de nossa estrutura é identificar quando não intervir, prevenindo regressões severas antes da implantação.
English
Proactive interventions by LLM critic models are often assumed to improve reliability, yet their effects at deployment time are poorly understood. We show that a binary LLM critic with strong offline accuracy (AUROC 0.94) can nevertheless cause severe performance degradation, inducing a 26 percentage point (pp) collapse on one model while affecting another by near zero pp. This variability demonstrates that LLM critic accuracy alone is insufficient to determine whether intervention is safe. We identify a disruption-recovery tradeoff: interventions may recover failing trajectories but also disrupt trajectories that would have succeeded. Based on this insight, we propose a pre-deployment test that uses a small pilot of 50 tasks to estimate whether intervention is likely to help or harm, without requiring full deployment. Across benchmarks, the test correctly anticipates outcomes: intervention degrades performance on high-success tasks (0 to -26 pp), while yielding a modest improvement on the high-failure ALFWorld benchmark (+2.8 pp, p=0.014). The primary value of our framework is therefore identifying when not to intervene, preventing severe regressions before deployment.
PDF253February 7, 2026