Rumo a uma Ciência da Confiabilidade de Agentes de IA

Resumo

Os agentes de IA estão sendo cada vez mais implantados para executar tarefas importantes. Embora o aumento das pontuações de precisão em benchmarks padrão sugira progresso rápido, muitos agentes ainda continuam a falhar na prática. Essa discrepância evidencia uma limitação fundamental das avaliações atuais: comprimir o comportamento do agente em uma única métrica de sucesso oculta falhas operacionais críticas. Notavelmente, ignora-se se os agentes se comportam de forma consistente entre execuções, resistem a perturbações, falham de maneira previsível ou possuem gravidade de erro limitada. Fundamentado na engenharia de segurança crítica, fornecemos um perfil de desempenho holístico propondo doze métricas concretas que decompõem a confiabilidade do agente ao longo de quatro dimensões principais: consistência, robustez, previsibilidade e segurança. Avaliando 14 modelos agentes em dois benchmarks complementares, descobrimos que os recentes ganhos de capacidade produziram apenas pequenas melhorias na confiabilidade. Ao expor essas limitações persistentes, nossas métricas complementam as avaliações tradicionais, oferecendo ferramentas para analisar como os agentes atuam, degradam-se e falham.

English

AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress, many agents still continue to fail in practice. This discrepancy highlights a fundamental limitation of current evaluations: compressing agent behavior into a single success metric obscures critical operational flaws. Notably, it ignores whether agents behave consistently across runs, withstand perturbations, fail predictably, or have bounded error severity. Grounded in safety-critical engineering, we provide a holistic performance profile by proposing twelve concrete metrics that decompose agent reliability along four key dimensions: consistency, robustness, predictability, and safety. Evaluating 14 agentic models across two complementary benchmarks, we find that recent capability gains have only yielded small improvements in reliability. By exposing these persistent limitations, our metrics complement traditional evaluations while offering tools for reasoning about how agents perform, degrade, and fail.