Accurate Voorspelling van Fouten bij Agents Impliceert Niet Effectieve Foutpreventie

Samenvatting

Proactieve interventies door LLM-criticusmodellen worden vaak verondersteld de betrouwbaarheid te verbeteren, maar hun effecten tijdens de implementatie zijn slecht begrepen. Wij tonen aan dat een binaire LLM-criticus met een sterke offline nauwkeurigheid (AUROC 0,94) desondanks een ernstige prestatievermindering kan veroorzaken, met een ineenstorting van 26 procentpunt (pp) bij het ene model, terwijl een ander model bijna geen effect ondervindt (bijna 0 pp). Deze variabiliteit toont aan dat alleen de nauwkeurigheid van een LLM-criticus onvoldoende is om te bepalen of interventie veilig is. Wij identificeren een disruptie-herstelafweging: interventies kunnen falende trajecten herstellen, maar ook trajecten verstoren die anders zouden zijn geslaagd. Gebaseerd op dit inzicht stellen wij een pre-implementatietest voor die een kleine pilot van 50 taken gebruikt om in te schatten of interventie waarschijnlijk zal helpen of schaden, zonder volledige implementatie nodig te hebben. Over benchmarks heen anticipeert de test correct op de uitkomsten: interventie verslechtert de prestaties bij taken met een hoog slaagpercentage (0 tot -26 pp), maar levert een bescheiden verbetering op bij de ALFWorld-benchmark met een hoog faalpercentage (+2,8 pp, p=0,014). De primaire waarde van ons raamwerk ligt daarom in het identificeren van wanneer niet moet worden geïntervenieerd, waardoor ernstige regressies vóór implementatie worden voorkomen.

English

Proactive interventions by LLM critic models are often assumed to improve reliability, yet their effects at deployment time are poorly understood. We show that a binary LLM critic with strong offline accuracy (AUROC 0.94) can nevertheless cause severe performance degradation, inducing a 26 percentage point (pp) collapse on one model while affecting another by near zero pp. This variability demonstrates that LLM critic accuracy alone is insufficient to determine whether intervention is safe. We identify a disruption-recovery tradeoff: interventions may recover failing trajectories but also disrupt trajectories that would have succeeded. Based on this insight, we propose a pre-deployment test that uses a small pilot of 50 tasks to estimate whether intervention is likely to help or harm, without requiring full deployment. Across benchmarks, the test correctly anticipates outcomes: intervention degrades performance on high-success tasks (0 to -26 pp), while yielding a modest improvement on the high-failure ALFWorld benchmark (+2.8 pp, p=0.014). The primary value of our framework is therefore identifying when not to intervene, preventing severe regressions before deployment.

Accurate Voorspelling van Fouten bij Agents Impliceert Niet Effectieve Foutpreventie

Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention

Samenvatting

Support