От признаков к действиям: объяснимость в традиционных и агентных системах ИИ

Аннотация

За последнее десятилетие исследования в области объяснимого ИИ в основном были сосредоточены на интерпретации индивидуальных прогнозов моделей, создавая постфактум объяснения, которые связывают входные данные с выходными в рамках фиксированной структуры принятия решений. Недавние достижения в области больших языковых моделей (LLM) позволили создать агентные системы ИИ, поведение которых разворачивается в виде многошаговых траекторий. В таких условиях успех и неудача определяются последовательностями решений, а не единичным выходом. Хотя существующие подходы к объяснению полезны, остается неясным, насколько методы, разработанные для статических прогнозов, применимы к агентным сценариям, где поведение формируется во времени. В данной работе мы преодолеваем разрыв между статической и агентной объяснимостью, сравнивая атрибутивные объяснения с диагностикой на основе трассировки в обоих контекстах. Чтобы сделать это различие явным, мы эмпирически сравниваем атрибутивные объяснения, используемые в задачах статической классификации, с диагностикой на основе трассировки, применяемой в агентных бенчмарках (TAU-bench Airline и AssistantBench). Наши результаты показывают, что хотя атрибутивные методы достигают стабильных ранжирований признаков в статических условиях (ρ Спирмена = 0,86), они не могут быть надежно применены для диагностики сбоев на уровне исполнения в агентных траекториях. В отличие от них, оценка по рубрикам, основанная на трассировке для агентных сценариев, последовательно локализует точки сбоя поведения и показывает, что несогласованность отслеживания состояния встречается в 2,7 раза чаще в неудачных прогонах и снижает вероятность успеха на 49%. Эти результаты обосновывают необходимость перехода к объяснимости на уровне траекторий для агентных систем при оценке и диагностике автономного поведения ИИ. Ресурсы: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

English

Over the last decade, explainable AI has primarily focused on interpreting individual model predictions, producing post-hoc explanations that relate inputs to outputs under a fixed decision structure. Recent advances in large language models (LLMs) have enabled agentic AI systems whose behaviour unfolds over multi-step trajectories. In these settings, success and failure are determined by sequences of decisions rather than a single output. While useful, it remains unclear how explanation approaches designed for static predictions translate to agentic settings where behaviour emerges over time. In this work, we bridge the gap between static and agentic explainability by comparing attribution-based explanations with trace-based diagnostics across both settings. To make this distinction explicit, we empirically compare attribution-based explanations used in static classification tasks with trace-based diagnostics used in agentic benchmarks (TAU-bench Airline and AssistantBench). Our results show that while attribution methods achieve stable feature rankings in static settings (Spearman ρ= 0.86), they cannot be applied reliably to diagnose execution-level failures in agentic trajectories. In contrast, trace-grounded rubric evaluation for agentic settings consistently localizes behaviour breakdowns and reveals that state tracking inconsistency is 2.7times more prevalent in failed runs and reduces success probability by 49\%. These findings motivate a shift towards trajectory-level explainability for agentic systems when evaluating and diagnosing autonomous AI behaviour. Resources: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

От признаков к действиям: объяснимость в традиционных и агентных системах ИИ

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Аннотация

Support