Vers une science de la fiabilité des agents d'IA

Résumé

Les agents d'IA sont de plus en plus déployés pour exécuter des tâches importantes. Bien que l'amélioration des scores de précision sur les benchmarks standards suggère des progrès rapides, de nombreux agents continuent d’échouer en pratique. Cette divergence met en lumière une limitation fondamentale des évaluations actuelles : compresser le comportement des agents en une métrique de réussite unique masque des défauts opérationnels critiques. Notamment, cela ignore si les agents se comportent de manière cohérente entre les exécutions, résistent aux perturbations, échouent de façon prévisible ou présentent une gravité d'erreur limitée. Fondés sur l'ingénierie des systèmes critiques, nous établissons un profil de performance holistique en proposant douze métriques concrètes qui décomposent la fiabilité des agents selon quatre dimensions clés : la cohérence, la robustesse, la prévisibilité et la sécurité. En évaluant 14 modèles agentiels sur deux benchmarks complémentaires, nous constatons que les gains récents en capacités n'ont apporté que de faibles améliorations en fiabilité. En exposant ces limitations persistantes, nos métriques complètent les évaluations traditionnelles tout en offrant des outils pour raisonner sur la manière dont les agents fonctionnent, se dégradent et échouent.

English

AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress, many agents still continue to fail in practice. This discrepancy highlights a fundamental limitation of current evaluations: compressing agent behavior into a single success metric obscures critical operational flaws. Notably, it ignores whether agents behave consistently across runs, withstand perturbations, fail predictably, or have bounded error severity. Grounded in safety-critical engineering, we provide a holistic performance profile by proposing twelve concrete metrics that decompose agent reliability along four key dimensions: consistency, robustness, predictability, and safety. Evaluating 14 agentic models across two complementary benchmarks, we find that recent capability gains have only yielded small improvements in reliability. By exposing these persistent limitations, our metrics complement traditional evaluations while offering tools for reasoning about how agents perform, degrade, and fail.

Vers une science de la fiabilité des agents d'IA

Towards a Science of AI Agent Reliability

Résumé

Support