ChatPaper.aiChatPaper

Revisitando LRP: La Atribución Posicional como el Ingrediente Faltante para la Explicabilidad de los Transformers

Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability

June 2, 2025
Autores: Yarden Bakish, Itamar Zimerman, Hila Chefer, Lior Wolf
cs.AI

Resumen

El desarrollo de herramientas efectivas de explicabilidad para Transformers es una búsqueda crucial en la investigación de aprendizaje profundo. Uno de los enfoques más prometedores en este dominio es la Propagación de Relevancia por Capas (LRP, por sus siglas en inglés), que propaga puntuaciones de relevancia hacia atrás a través de la red hasta el espacio de entrada redistribuyendo valores de activación según reglas predefinidas. Sin embargo, los métodos existentes basados en LRP para la explicabilidad de Transformers pasan por alto por completo un componente crítico de la arquitectura Transformer: su codificación posicional (PE, por sus siglas en inglés), lo que resulta en la violación de la propiedad de conservación y la pérdida de un tipo importante y único de relevancia, que también está asociado con características estructurales y posicionales. Para abordar esta limitación, reformulamos el espacio de entrada para la explicabilidad de Transformers como un conjunto de pares posición-token. Esto nos permite proponer reglas especializadas de LRP fundamentadas teóricamente, diseñadas para propagar atribuciones a través de varios métodos de codificación posicional, incluyendo PE Rotatorio, Aprendible y Absoluto. Experimentos exhaustivos con clasificadores ajustados y modelos de base de cero-shot, como LLaMA 3, demuestran que nuestro método supera significativamente al estado del arte tanto en tareas de explicabilidad de visión como de PNL. Nuestro código está disponible públicamente.
English
The development of effective explainability tools for Transformers is a crucial pursuit in deep learning research. One of the most promising approaches in this domain is Layer-wise Relevance Propagation (LRP), which propagates relevance scores backward through the network to the input space by redistributing activation values based on predefined rules. However, existing LRP-based methods for Transformer explainability entirely overlook a critical component of the Transformer architecture: its positional encoding (PE), resulting in violation of the conservation property, and the loss of an important and unique type of relevance, which is also associated with structural and positional features. To address this limitation, we reformulate the input space for Transformer explainability as a set of position-token pairs. This allows us to propose specialized theoretically-grounded LRP rules designed to propagate attributions across various positional encoding methods, including Rotary, Learnable, and Absolute PE. Extensive experiments with both fine-tuned classifiers and zero-shot foundation models, such as LLaMA 3, demonstrate that our method significantly outperforms the state-of-the-art in both vision and NLP explainability tasks. Our code is publicly available.
PDF13June 4, 2025