Hacia una Ciencia de la Fiabilidad de los Agentes de IA

Resumen

Los agentes de IA se implementan cada vez más para ejecutar tareas importantes. Si bien el aumento en las puntuaciones de precisión en benchmarks estándar sugiere un progreso rápido, muchos agentes siguen fallando en la práctica. Esta discrepancia subraya una limitación fundamental de las evaluaciones actuales: comprimir el comportamiento del agente en una única métrica de éxito oculta fallos operativos críticos. En particular, ignora si los agentes se comportan de manera consistente entre ejecuciones, resisten perturbaciones, fallan de forma predecible o tienen una gravedad de error acotada. Basándonos en la ingeniería de sistemas críticos para la seguridad, proporcionamos un perfil de rendimiento holístico al proponer doce métricas concretas que descomponen la confiabilidad del agente en cuatro dimensiones clave: consistencia, robustez, predecibilidad y seguridad. Al evaluar 14 modelos agenticos en dos benchmarks complementarios, encontramos que las recientes mejoras en capacidades solo han producido pequeñas mejoras en confiabilidad. Al exponer estas limitaciones persistentes, nuestras métricas complementan las evaluaciones tradicionales mientras ofrecen herramientas para razonar sobre cómo los agentes funcionan, se degradan y fallan.

English

AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress, many agents still continue to fail in practice. This discrepancy highlights a fundamental limitation of current evaluations: compressing agent behavior into a single success metric obscures critical operational flaws. Notably, it ignores whether agents behave consistently across runs, withstand perturbations, fail predictably, or have bounded error severity. Grounded in safety-critical engineering, we provide a holistic performance profile by proposing twelve concrete metrics that decompose agent reliability along four key dimensions: consistency, robustness, predictability, and safety. Evaluating 14 agentic models across two complementary benchmarks, we find that recent capability gains have only yielded small improvements in reliability. By exposing these persistent limitations, our metrics complement traditional evaluations while offering tools for reasoning about how agents perform, degrade, and fail.

Hacia una Ciencia de la Fiabilidad de los Agentes de IA

Towards a Science of AI Agent Reliability

Resumen

Support