La predicción precisa de fallos en agentes no implica una prevención efectiva de los mismos.

Resumen

Se asume frecuentemente que las intervenciones proactivas de los modelos críticos de LLM mejoran la fiabilidad; sin embargo, se comprenden poco sus efectos en el momento del despliegue. Demostramos que un crítico binario de LLM con una alta precisión offline (AUROC 0,94) puede, no obstante, causar una severa degradación del rendimiento, induciendo un colapso de 26 puntos porcentuales (pp) en un modelo mientras afecta a otro en casi cero pp. Esta variabilidad demuestra que la precisión del crítico de LLM por sí sola es insuficiente para determinar si la intervención es segura. Identificamos una disyuntiva entre interrupción y recuperación: las intervenciones pueden recuperar trayectorias fallidas, pero también interrumpir trayectorias que habrían tenido éxito. Basándonos en esta idea, proponemos una prueba previa al despliegue que utiliza un pequeño piloto de 50 tareas para estimar si es probable que la intervención ayude o dañe, sin requerir un despliegue completo. En varios benchmarks, la prueba anticipa correctamente los resultados: la intervención degrada el rendimiento en tareas de alto éxito (0 a -26 pp), mientras que produce una mejora modesta en el benchmark ALFWorld de alto fracaso (+2,8 pp, p=0,014). Por lo tanto, el valor principal de nuestro marco de trabajo es identificar cuándo no intervenir, previniendo regresiones severas antes del despliegue.

English

Proactive interventions by LLM critic models are often assumed to improve reliability, yet their effects at deployment time are poorly understood. We show that a binary LLM critic with strong offline accuracy (AUROC 0.94) can nevertheless cause severe performance degradation, inducing a 26 percentage point (pp) collapse on one model while affecting another by near zero pp. This variability demonstrates that LLM critic accuracy alone is insufficient to determine whether intervention is safe. We identify a disruption-recovery tradeoff: interventions may recover failing trajectories but also disrupt trajectories that would have succeeded. Based on this insight, we propose a pre-deployment test that uses a small pilot of 50 tasks to estimate whether intervention is likely to help or harm, without requiring full deployment. Across benchmarks, the test correctly anticipates outcomes: intervention degrades performance on high-success tasks (0 to -26 pp), while yielding a modest improvement on the high-failure ALFWorld benchmark (+2.8 pp, p=0.014). The primary value of our framework is therefore identifying when not to intervene, preventing severe regressions before deployment.

La predicción precisa de fallos en agentes no implica una prevención efectiva de los mismos.

Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

Resumen

Support