Von Merkmalen zu Aktionen: Erklärbarkeit in traditionellen und agentenbasierten KI-Systemen

Zusammenfassung

In den letzten zehn Jahren hat sich erklärbare KI (XAI) hauptsächlich auf die Interpretation einzelner Modellvorhersagen konzentriert, wobei nachträglich Erklärungen generiert wurden, die Eingaben und Ausgaben unter einer festen Entscheidungsstruktur in Beziehung setzen. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben agentenbasierte KI-Systeme ermöglicht, deren Verhalten sich über mehrstufige Trajektorien entfaltet. In diesen Szenarien werden Erfolg und Misserfolg durch Entscheidungssequenzen und nicht durch eine einzelne Ausgabe bestimmt. Obwohl nützlich, ist unklar, wie Erklärungsansätze, die für statische Vorhersagen konzipiert wurden, auf agentenbasierte Settings übertragen werden können, in denen sich das Verhalten über die Zeit entwickelt. In dieser Arbeit schließen wir die Lücke zwischen statischer und agentenbasierter Erklärbarkeit, indem wir attributionsbasierte Erklärungen mit spurbasierten Diagnosen in beiden Settings vergleichen. Um diesen Unterschied explizit zu machen, vergleichen wir empirisch attributionsbasierte Erklärungen aus statischen Klassifikationsaufgaben mit spurbasierten Diagnosen aus agentenbasierten Benchmarks (TAU-bench Airline und AssistantBench). Unsere Ergebnisse zeigen, dass Attributionsmethoden zwar stabile Feature-Rankings in statischen Settings erreichen (Spearman ρ=0,86), sie jedoch nicht zuverlässig zur Diagnose von Ausführungsfehlern in agentenbasierten Trajektorien angewendet werden können. Im Gegensatz dazu lokalisiert die spurgestützte Rubrikbewertung für agentenbasierte Settings konsistent Verhaltenszusammenbrüche und zeigt, dass Inkonsistenzen in der Zustandsverfolgung in fehlgeschlagenen Durchläufen 2,7-mal häufiger auftreten und die Erfolgswahrscheinlichkeit um 49 % reduzieren. Diese Erkenntnisse motivieren einen Wandel hin zu trajektorienbasierter Erklärbarkeit für agentenbasierte Systeme bei der Bewertung und Diagnose autonomen KI-Verhaltens. Ressourcen: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

English

Over the last decade, explainable AI has primarily focused on interpreting individual model predictions, producing post-hoc explanations that relate inputs to outputs under a fixed decision structure. Recent advances in large language models (LLMs) have enabled agentic AI systems whose behaviour unfolds over multi-step trajectories. In these settings, success and failure are determined by sequences of decisions rather than a single output. While useful, it remains unclear how explanation approaches designed for static predictions translate to agentic settings where behaviour emerges over time. In this work, we bridge the gap between static and agentic explainability by comparing attribution-based explanations with trace-based diagnostics across both settings. To make this distinction explicit, we empirically compare attribution-based explanations used in static classification tasks with trace-based diagnostics used in agentic benchmarks (TAU-bench Airline and AssistantBench). Our results show that while attribution methods achieve stable feature rankings in static settings (Spearman ρ= 0.86), they cannot be applied reliably to diagnose execution-level failures in agentic trajectories. In contrast, trace-grounded rubric evaluation for agentic settings consistently localizes behaviour breakdowns and reveals that state tracking inconsistency is 2.7times more prevalent in failed runs and reduces success probability by 49\%. These findings motivate a shift towards trajectory-level explainability for agentic systems when evaluating and diagnosing autonomous AI behaviour. Resources: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

Von Merkmalen zu Aktionen: Erklärbarkeit in traditionellen und agentenbasierten KI-Systemen

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Zusammenfassung

Support