La previsione accurata dei fallimenti negli agenti non implica una prevenzione efficace degli stessi.

Abstract

Gli interventi proattivi da parte di modelli critici basati su LLM sono spesso considerati un modo per migliorare l'affidabilità, ma i loro effetti al momento del deployment sono poco compresi. Dimostriamo che un critico binario per LLM con un'elevata accuratezza offline (AUROC 0,94) può comunque causare un grave degrado delle prestazioni, inducendo un crollo di 26 punti percentuali (pp) su un modello mentre ne influenza un altro di quasi zero pp. Questa variabilità dimostra che la sola accuratezza del critico LLM è insufficiente per determinare se l'intervento sia sicuro. Identifichiamo un tradeoff interruzione-recupero: gli interventi possono recuperare traiettorie in fallimento ma anche interrompere traiettorie che sarebbero riuscite. Sulla base di questa intuizione, proponiamo un test pre-deployment che utilizza un piccolo pilota di 50 task per stimare se l'intervento è probabile che aiuti o danneggi, senza richiedere un deployment completo. Su diversi benchmark, il test anticipa correttamente gli esiti: l'intervento degrada le prestazioni su task ad alto successo (da 0 a -26 pp), mentre produce un miglioramento modesto sul benchmark ALFWorld ad alto tasso di fallimento (+2,8 pp, p=0,014). Il valore primario del nostro framework è quindi identificare quando non intervenire, prevenendo gravi regressioni prima del deployment.

English

Proactive interventions by LLM critic models are often assumed to improve reliability, yet their effects at deployment time are poorly understood. We show that a binary LLM critic with strong offline accuracy (AUROC 0.94) can nevertheless cause severe performance degradation, inducing a 26 percentage point (pp) collapse on one model while affecting another by near zero pp. This variability demonstrates that LLM critic accuracy alone is insufficient to determine whether intervention is safe. We identify a disruption-recovery tradeoff: interventions may recover failing trajectories but also disrupt trajectories that would have succeeded. Based on this insight, we propose a pre-deployment test that uses a small pilot of 50 tasks to estimate whether intervention is likely to help or harm, without requiring full deployment. Across benchmarks, the test correctly anticipates outcomes: intervention degrades performance on high-success tasks (0 to -26 pp), while yielding a modest improvement on the high-failure ALFWorld benchmark (+2.8 pp, p=0.014). The primary value of our framework is therefore identifying when not to intervene, preventing severe regressions before deployment.

La previsione accurata dei fallimenti negli agenti non implica una prevenzione efficace degli stessi.

Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

Abstract

Support