Op weg naar een wetenschap van AI-agentbetrouwbaarheid

Samenvatting

AI-agenten worden steeds vaker ingezet voor het uitvoeren van belangrijke taken. Hoewel stijgende nauwkeurigheidsscores op standaardbenchmarks snelle vooruitgang suggereren, falen veel agenten in de praktijk nog steeds. Deze discrepantie benadrukt een fundamentele beperking van huidige evaluaties: het comprimeren van agentgedrag tot een enkele succescategorie verhult kritieke operationele tekortkomingen. Met name wordt genegeerd of agenten consistent gedrag vertonen over verschillende runs, verstoringen kunnen weerstaan, voorspelbaar falen, of een begrensde foutgevoeligheid hebben. Geworteld in veiligheidskritieke engineering bieden wij een holistisch prestatieprofiel door twaalf concrete metrieken voor te stellen die de betrouwbaarheid van agenten ontleden langs vier cruciale dimensies: consistentie, robuustheid, voorspelbaarheid en veiligheid. Door 14 agentmodellen te evalueren over twee complementaire benchmarks, constateren wij dat recente vermogenswinsten slechts kleine verbeteringen in betrouwbaarheid hebben opgeleverd. Door deze hardnekkige beperkingen bloot te leggen, complementeren onze metrieken traditionele evaluaties en bieden zij instrumenten om te redeneren over hoe agenten presteren, afnemen in kwaliteit en falen.

English

AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress, many agents still continue to fail in practice. This discrepancy highlights a fundamental limitation of current evaluations: compressing agent behavior into a single success metric obscures critical operational flaws. Notably, it ignores whether agents behave consistently across runs, withstand perturbations, fail predictably, or have bounded error severity. Grounded in safety-critical engineering, we provide a holistic performance profile by proposing twelve concrete metrics that decompose agent reliability along four key dimensions: consistency, robustness, predictability, and safety. Evaluating 14 agentic models across two complementary benchmarks, we find that recent capability gains have only yielded small improvements in reliability. By exposing these persistent limitations, our metrics complement traditional evaluations while offering tools for reasoning about how agents perform, degrade, and fail.

Op weg naar een wetenschap van AI-agentbetrouwbaarheid

Towards a Science of AI Agent Reliability

Samenvatting

Support