Van kenmerken naar acties: verklaarbaarheid in traditionele en agent-gebaseerde AI-systemen

Samenvatting

In het afgelopen decennium heeft verklaarbare kunstmatige intelligentie zich voornamelijk gericht op het interpreteren van individuele modelvoorspellingen, waarbij post-hoc-verklaringen worden gegenereerd die invoer relateren aan uitvoer onder een vaste beslissingsstructuur. Recente vooruitgang in grote taalmodellen (LLM's) heeft agent-gebaseerde AI-systemen mogelijk gemaakt, waarvan het gedrag zich ontvouwt over meerstappentrajecten. In deze contexten worden succes en falen bepaald door reeksen beslissingen in plaats van door een enkele uitvoer. Hoewel nuttig, is het onduidelijk hoe verklaringsbenaderingen die zijn ontworpen voor statische voorspellingen, vertaald kunnen worden naar agent-gebaseerde settings waar gedrag in de tijd ontstaat. In dit werk overbruggen we de kloof tussen statische en agent-gebaseerde verklaarbaarheid door op attributie gebaseerde verklaringen te vergelijken met op sporen gebaseerde diagnostiek in beide settings. Om dit onderscheid expliciet te maken, vergelijken we empirisch op attributie gebaseerde verklaringen die worden gebruikt in statische classificatietaken met op sporen gebaseerde diagnostiek die wordt gebruikt in agent-gebaseerde benchmarks (TAU-bench Airline en AssistantBench). Onze resultaten tonen aan dat, hoewel attributiemethoden stabiele functieranglijsten bereiken in statische settings (Spearman ρ= 0,86), ze niet betrouwbaar kunnen worden toegepast om uitvoeringsniveau-fouten in agent-gebaseerde trajecten te diagnosticeren. Daarentegen lokaliseert rubric-evaluatie op basis van sporen voor agent-gebaseerde settings consistent gedragsbreuken en laat zien dat inconsistentie in staat-tracking 2,7 keer vaker voorkomt in mislukte runs en de succeskans met 49% verlaagt. Deze bevindingen motiveren een verschuiving naar verklaarbaarheid op trajectniveau voor agent-systemen bij het evalueren en diagnosticeren van autonoom AI-gedrag. Bronnen: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

English

Over the last decade, explainable AI has primarily focused on interpreting individual model predictions, producing post-hoc explanations that relate inputs to outputs under a fixed decision structure. Recent advances in large language models (LLMs) have enabled agentic AI systems whose behaviour unfolds over multi-step trajectories. In these settings, success and failure are determined by sequences of decisions rather than a single output. While useful, it remains unclear how explanation approaches designed for static predictions translate to agentic settings where behaviour emerges over time. In this work, we bridge the gap between static and agentic explainability by comparing attribution-based explanations with trace-based diagnostics across both settings. To make this distinction explicit, we empirically compare attribution-based explanations used in static classification tasks with trace-based diagnostics used in agentic benchmarks (TAU-bench Airline and AssistantBench). Our results show that while attribution methods achieve stable feature rankings in static settings (Spearman ρ= 0.86), they cannot be applied reliably to diagnose execution-level failures in agentic trajectories. In contrast, trace-grounded rubric evaluation for agentic settings consistently localizes behaviour breakdowns and reveals that state tracking inconsistency is 2.7times more prevalent in failed runs and reduces success probability by 49\%. These findings motivate a shift towards trajectory-level explainability for agentic systems when evaluating and diagnosing autonomous AI behaviour. Resources: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

Van kenmerken naar acties: verklaarbaarheid in traditionele en agent-gebaseerde AI-systemen

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Samenvatting

Support