ChatPaper.aiChatPaper

Переосмысление LRP: позиционное объяснение как недостающий элемент для интерпретируемости трансформеров

Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability

June 2, 2025
Авторы: Yarden Bakish, Itamar Zimerman, Hila Chefer, Lior Wolf
cs.AI

Аннотация

Разработка эффективных инструментов объяснимости для архитектур Transformer является важной задачей в исследованиях глубокого обучения. Одним из наиболее перспективных подходов в этой области является послойное распространение релевантности (Layer-wise Relevance Propagation, LRP), которое распространяет оценки релевантности в обратном направлении через сеть к входному пространству путем перераспределения значений активаций на основе предопределенных правил. Однако существующие методы, основанные на LRP для объяснимости Transformer, полностью игнорируют критический компонент архитектуры Transformer — позиционное кодирование (Positional Encoding, PE), что приводит к нарушению свойства сохранения и потере важного и уникального типа релевантности, связанного со структурными и позиционными особенностями. Для устранения этого ограничения мы переформулируем входное пространство для объяснимости Transformer как набор пар "позиция-токен". Это позволяет предложить специализированные теоретически обоснованные правила LRP, предназначенные для распространения атрибуций через различные методы позиционного кодирования, включая Rotary, Learnable и Absolute PE. Многочисленные эксперименты с тонко настроенными классификаторами и моделями с нулевым обучением, такими как LLaMA 3, демонстрируют, что наш метод значительно превосходит современные подходы в задачах объяснимости как в области компьютерного зрения, так и в обработке естественного языка. Наш код доступен в открытом доступе.
English
The development of effective explainability tools for Transformers is a crucial pursuit in deep learning research. One of the most promising approaches in this domain is Layer-wise Relevance Propagation (LRP), which propagates relevance scores backward through the network to the input space by redistributing activation values based on predefined rules. However, existing LRP-based methods for Transformer explainability entirely overlook a critical component of the Transformer architecture: its positional encoding (PE), resulting in violation of the conservation property, and the loss of an important and unique type of relevance, which is also associated with structural and positional features. To address this limitation, we reformulate the input space for Transformer explainability as a set of position-token pairs. This allows us to propose specialized theoretically-grounded LRP rules designed to propagate attributions across various positional encoding methods, including Rotary, Learnable, and Absolute PE. Extensive experiments with both fine-tuned classifiers and zero-shot foundation models, such as LLaMA 3, demonstrate that our method significantly outperforms the state-of-the-art in both vision and NLP explainability tasks. Our code is publicly available.
PDF13June 4, 2025