Atribución Contrastiva en Contextos Reales: Un Análisis de Interpretabilidad de los Fallos de los LLM en Evaluaciones Realistas

Resumen

Las herramientas de interpretabilidad se utilizan cada vez más para analizar los fallos de los Modelos de Lenguaje a Gran Escala (LLM), sin embargo, trabajos previos se centran en gran medida en instrucciones breves o entornos de juguete, dejando su comportamiento en los puntos de referencia de uso común poco explorado. Para abordar esta brecha, estudiamos la atribución contrastiva basada en LRP como una herramienta práctica para analizar fallos de LLM en entornos realistas. Formulamos el análisis de fallos como una atribución contrastiva, atribuyendo la diferencia de logit entre un token de salida incorrecto y una alternativa correcta a los tokens de entrada y los estados internos del modelo, e introducimos una extensión eficiente que permite la construcción de grafos de atribución entre capas para entradas de contexto largo. Utilizando este marco, realizamos un estudio empírico sistemático a través de puntos de referencia, comparando los patrones de atribución entre conjuntos de datos, tamaños de modelos y puntos de control del entrenamiento. Nuestros resultados muestran que esta atribución contrastiva a nivel de token puede producir señales informativas en algunos casos de fallo, pero no es universalmente aplicable, destacando tanto su utilidad como sus limitaciones para el análisis realista de fallos de LLM. Nuestro código está disponible en: https://aka.ms/Debug-XAI.

English

Interpretability tools are increasingly used to analyze failures of Large Language Models (LLMs), yet prior work largely focuses on short prompts or toy settings, leaving their behavior on commonly used benchmarks underexplored. To address this gap, we study contrastive, LRP-based attribution as a practical tool for analyzing LLM failures in realistic settings. We formulate failure analysis as contrastive attribution, attributing the logit difference between an incorrect output token and a correct alternative to input tokens and internal model states, and introduce an efficient extension that enables construction of cross-layer attribution graphs for long-context inputs. Using this framework, we conduct a systematic empirical study across benchmarks, comparing attribution patterns across datasets, model sizes, and training checkpoints. Our results show that this token-level contrastive attribution can yield informative signals in some failure cases, but is not universally applicable, highlighting both its utility and its limitations for realistic LLM failure analysis. Our code is available at: https://aka.ms/Debug-XAI.

Atribución Contrastiva en Contextos Reales: Un Análisis de Interpretabilidad de los Fallos de los LLM en Evaluaciones Realistas

Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

Resumen

Support