La prédiction précise des défaillances chez les agents n'implique pas une prévention efficace des échecs.

papers.abstract

Les interventions proactives par les modèles critiques de LLM sont souvent supposées améliorer la fiabilité, mais leurs effets au moment du déploiement sont mal compris. Nous montrons qu'un critique binaire de LLM avec une forte précision hors ligne (AUROC 0,94) peut néanmoins entraîner une dégradation sévère des performances, provoquant un effondrement de 26 points de pourcentage (pp) sur un modèle tandis qu'un autre est affecté de près de zéro pp. Cette variabilité démontre que la seule précision du critique de LLM est insuffisante pour déterminer si l'intervention est sûre. Nous identifions un compromis perturbation-rétablissement : les interventions peuvent récupérer des trajectoires défaillantes mais aussi perturber des trajectoires qui auraient réussi. Sur cette base, nous proposons un test pré-déploiement utilisant un petit pilote de 50 tâches pour estimer si l'intervention est susceptible d'aider ou de nuire, sans nécessiter un déploiement complet. Sur divers benchmarks, le test anticipe correctement les résultats : l'intervention dégrade les performances sur les tâches à haut taux de succès (0 à -26 pp), tout en produisant une amélioration modeste sur le benchmark ALFWorld à haut taux d'échec (+2,8 pp, p=0,014). La valeur principale de notre cadre est donc d'identifier quand ne pas intervenir, évitant ainsi des régressions sévères avant le déploiement.

English

Proactive interventions by LLM critic models are often assumed to improve reliability, yet their effects at deployment time are poorly understood. We show that a binary LLM critic with strong offline accuracy (AUROC 0.94) can nevertheless cause severe performance degradation, inducing a 26 percentage point (pp) collapse on one model while affecting another by near zero pp. This variability demonstrates that LLM critic accuracy alone is insufficient to determine whether intervention is safe. We identify a disruption-recovery tradeoff: interventions may recover failing trajectories but also disrupt trajectories that would have succeeded. Based on this insight, we propose a pre-deployment test that uses a small pilot of 50 tasks to estimate whether intervention is likely to help or harm, without requiring full deployment. Across benchmarks, the test correctly anticipates outcomes: intervention degrades performance on high-success tasks (0 to -26 pp), while yielding a modest improvement on the high-failure ALFWorld benchmark (+2.8 pp, p=0.014). The primary value of our framework is therefore identifying when not to intervene, preventing severe regressions before deployment.

La prédiction précise des défaillances chez les agents n'implique pas une prévention efficace des échecs.

Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

papers.abstract

Support