Dalle Caratteristiche alle Azioni: Spiegabilità nei Sistemi di Intelligenza Artificiale Tradizionali e Agenti

Abstract

Nell'ultimo decennio, l'AI spiegabile si è concentrata principalmente sull'interpretazione delle previsioni individuali dei modelli, producendo spiegazioni post-hoc che mettono in relazione input e output in una struttura decisionale fissa. I recenti progressi nei grandi modelli linguistici (LLM) hanno consentito lo sviluppo di sistemi di AI agentivi, il cui comportamento si dispiega attraverso traiettorie a più fasi. In questi contesti, il successo e il fallimento sono determinati da sequenze di decisioni piuttosto che da un singolo output. Sebbene utili, non è chiaro come gli approcci esplicativi progettati per previsioni statiche si traducano in contesti agentivi in cui il comportamento emerge nel tempo. In questo lavoro, colmiamo il divario tra spiegabilità statica e agentiva confrontando spiegazioni basate sull'attribuzione con diagnosi basate sulla traccia in entrambi gli scenari. Per rendere esplicita questa distinzione, confrontiamo empiricamente le spiegazioni basate sull'attribuzione utilizzate in compiti di classificazione statica con le diagnosi basate sulla traccia utilizzate in benchmark agentivi (TAU-bench Airline e AssistantBench). I nostri risultati mostrano che, sebbene i metodi di attribuzione raggiungano classifiche delle feature stabili in contesti statici (Spearman ρ= 0,86), non possono essere applicati in modo affidabile per diagnosticare guasti a livello esecutivo nelle traiettorie agentive. Al contrario, la valutazione tramite rubriche ancorate alla traccia per contesti agentivi localizza in modo coerente i punti di rottura del comportamento e rivela che l'incoerenza nel tracciamento dello stato è 2,7 volte più prevalente nelle esecuzioni fallite e riduce la probabilità di successo del 49%. Questi risultati motivano un passaggio verso una spiegabilità a livello di traiettoria per i sistemi agentivi quando si valuta e si diagnostica il comportamento autonomo dell'AI. Risorse: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

English

Over the last decade, explainable AI has primarily focused on interpreting individual model predictions, producing post-hoc explanations that relate inputs to outputs under a fixed decision structure. Recent advances in large language models (LLMs) have enabled agentic AI systems whose behaviour unfolds over multi-step trajectories. In these settings, success and failure are determined by sequences of decisions rather than a single output. While useful, it remains unclear how explanation approaches designed for static predictions translate to agentic settings where behaviour emerges over time. In this work, we bridge the gap between static and agentic explainability by comparing attribution-based explanations with trace-based diagnostics across both settings. To make this distinction explicit, we empirically compare attribution-based explanations used in static classification tasks with trace-based diagnostics used in agentic benchmarks (TAU-bench Airline and AssistantBench). Our results show that while attribution methods achieve stable feature rankings in static settings (Spearman ρ= 0.86), they cannot be applied reliably to diagnose execution-level failures in agentic trajectories. In contrast, trace-grounded rubric evaluation for agentic settings consistently localizes behaviour breakdowns and reveals that state tracking inconsistency is 2.7times more prevalent in failed runs and reduces success probability by 49\%. These findings motivate a shift towards trajectory-level explainability for agentic systems when evaluating and diagnosing autonomous AI behaviour. Resources: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

Dalle Caratteristiche alle Azioni: Spiegabilità nei Sistemi di Intelligenza Artificiale Tradizionali e Agenti

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Abstract

Support