К построению науки о надежности ИИ-агентов

Аннотация

Искусственные интеллектуальные агенты все чаще развертываются для выполнения важных задач. Хотя растущие показатели точности на стандартных тестах свидетельствуют о быстром прогрессе, многие агенты на практике продолжают давать сбои. Это несоответствие выявляет фундаментальное ограничение текущих методов оценки: сведение поведения агента к единственному показателю успеха скрывает критические операционные недостатки. В частности, игнорируется вопрос о том, ведут ли агенты последовательно в разных запусках, устойчивы ли к возмущениям, предсказуемо ли отказывают и имеют ли ограниченную тяжесть ошибок. Основываясь на принципах инженерии критически важных для безопасности систем, мы предлагаем целостный профиль производительности, вводя двенадцать конкретных метрик, которые декомпозируют надежность агента по четырем ключевым аспектам: последовательность, устойчивость, предсказуемость и безопасность. Оценивая 14 агентских моделей на двух взаимодополняющих тестовых наборах, мы обнаруживаем, что недавние улучшения в возможностях принесли лишь незначительный рост надежности. Выявляя эти сохраняющиеся ограничения, наши метрики дополняют традиционные оценки и предлагают инструменты для анализа того, как агенты работают, ухудшаются и отказывают.

English

AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress, many agents still continue to fail in practice. This discrepancy highlights a fundamental limitation of current evaluations: compressing agent behavior into a single success metric obscures critical operational flaws. Notably, it ignores whether agents behave consistently across runs, withstand perturbations, fail predictably, or have bounded error severity. Grounded in safety-critical engineering, we provide a holistic performance profile by proposing twelve concrete metrics that decompose agent reliability along four key dimensions: consistency, robustness, predictability, and safety. Evaluating 14 agentic models across two complementary benchmarks, we find that recent capability gains have only yielded small improvements in reliability. By exposing these persistent limitations, our metrics complement traditional evaluations while offering tools for reasoning about how agents perform, degrade, and fail.

К построению науки о надежности ИИ-агентов

Towards a Science of AI Agent Reliability

Аннотация

Support