Verso una Scienza dell'Affidabilità degli Agenti di IA

Abstract

Gli agenti IA vengono sempre più impiegati per eseguire compiti importanti. Sebbene i punteggi di accuratezza in aumento sui benchmark standard suggeriscano progressi rapidi, molti agenti continuano a fallire nella pratica. Questa discrepanza evidenzia una limitazione fondamentale delle valutazioni attuali: comprimere il comportamento dell'agente in una singola metrica di successo oscura difetti operativi critici. In particolare, ignora se gli agenti si comportano in modo coerente tra diverse esecuzioni, resistono a perturbazioni, falliscono in modo prevedibile o hanno una gravità dell'errore limitata. Basandoci sull'ingegneria dei sistemi safety-critical, forniamo un profilo di prestazione olistico proponendo dodici metriche concrete che scompongono l'affidabilità dell'agente lungo quattro dimensioni chiave: coerenza, robustezza, prevedibilità e sicurezza. Valutando 14 modelli agenti attraverso due benchmark complementari, scopriamo che i recenti guadagni nelle capacità hanno prodotto solo piccoli miglioramenti nell'affidabilità. Mettendo in luce queste limitazioni persistenti, le nostre metriche integrano le valutazioni tradizionali offrendo al contempo strumenti per ragionare su come gli agenti funzionano, si degradano e falliscono.

English

AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress, many agents still continue to fail in practice. This discrepancy highlights a fundamental limitation of current evaluations: compressing agent behavior into a single success metric obscures critical operational flaws. Notably, it ignores whether agents behave consistently across runs, withstand perturbations, fail predictably, or have bounded error severity. Grounded in safety-critical engineering, we provide a holistic performance profile by proposing twelve concrete metrics that decompose agent reliability along four key dimensions: consistency, robustness, predictability, and safety. Evaluating 14 agentic models across two complementary benchmarks, we find that recent capability gains have only yielded small improvements in reliability. By exposing these persistent limitations, our metrics complement traditional evaluations while offering tools for reasoning about how agents perform, degrade, and fail.

Verso una Scienza dell'Affidabilità degli Agenti di IA

Towards a Science of AI Agent Reliability

Abstract

Support