De las Características a las Acciones: Explicabilidad en los Sistemas de IA Tradicionales y Agénticos

Resumen

Durante la última década, la IA explicable se ha centrado principalmente en interpretar predicciones individuales de modelos, produciendo explicaciones post-hoc que relacionan entradas y salidas bajo una estructura de decisión fija. Los recientes avances en los modelos de lenguaje extenso (LLM) han permitido sistemas de IA agentes cuyo comportamiento se desarrolla a lo largo de trayectorias de múltiples pasos. En estos contextos, el éxito y el fracaso están determinados por secuencias de decisiones en lugar de por una única salida. Aunque son útiles, no está claro cómo los enfoques explicativos diseñados para predicciones estáticas se trasladan a entornos agentes donde el comportamiento emerge con el tiempo. En este trabajo, cerramos la brecha entre la explicabilidad estática y la agente comparando explicaciones basadas en atribución con diagnósticos basados en trazas en ambos entornos. Para hacer explícita esta distinción, comparamos empíricamente las explicaciones basadas en atribución utilizadas en tareas de clasificación estática con los diagnósticos basados en trazas utilizados en benchmarks agentes (TAU-bench Airline y AssistantBench). Nuestros resultados muestran que, si bien los métodos de atribución logran clasificaciones de características estables en entornos estáticos (ρ de Spearman = 0.86), no pueden aplicarse de forma fiable para diagnosticar fallos a nivel de ejecución en trayectorias agentes. Por el contrario, la evaluación mediante rúbrica basada en trazas para entornos agentes localiza consistentemente las rupturas del comportamiento y revela que la inconsistencia en el seguimiento del estado es 2.7 veces más prevalente en ejecuciones fallidas y reduce la probabilidad de éxito en un 49%. Estos hallazgos motivan un cambio hacia la explicabilidad a nivel de trayectoria para sistemas agentes al evaluar y diagnosticar el comportamiento autónomo de la IA. Recursos: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework

English

Over the last decade, explainable AI has primarily focused on interpreting individual model predictions, producing post-hoc explanations that relate inputs to outputs under a fixed decision structure. Recent advances in large language models (LLMs) have enabled agentic AI systems whose behaviour unfolds over multi-step trajectories. In these settings, success and failure are determined by sequences of decisions rather than a single output. While useful, it remains unclear how explanation approaches designed for static predictions translate to agentic settings where behaviour emerges over time. In this work, we bridge the gap between static and agentic explainability by comparing attribution-based explanations with trace-based diagnostics across both settings. To make this distinction explicit, we empirically compare attribution-based explanations used in static classification tasks with trace-based diagnostics used in agentic benchmarks (TAU-bench Airline and AssistantBench). Our results show that while attribution methods achieve stable feature rankings in static settings (Spearman ρ= 0.86), they cannot be applied reliably to diagnose execution-level failures in agentic trajectories. In contrast, trace-grounded rubric evaluation for agentic settings consistently localizes behaviour breakdowns and reveals that state tracking inconsistency is 2.7times more prevalent in failed runs and reduces success probability by 49\%. These findings motivate a shift towards trajectory-level explainability for agentic systems when evaluating and diagnosing autonomous AI behaviour. Resources: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework