Контрастная атрибуция в реальных условиях: интерпретируемый анализ ошибок больших языковых моделей на реалистичных бенчмарках

Аннотация

Инструменты интерпретируемости всё чаще применяются для анализа сбоев больших языковых моделей (LLM), однако предыдущие работы в основном сосредоточены на коротких промптах или упрощенных сценариях, оставляя поведение моделей на общепринятых бенчмарках недостаточно изученным. Чтобы восполнить этот пробел, мы исследуем контрастные атрибуции на основе LRP как практический инструмент анализа сбоев LLM в реалистичных условиях. Мы формулируем анализ сбоев как контрастную атрибуцию, приписывая разницу логитов между некорректным выходным токеном и корректной альтернативой входным токенам и внутренним состояниям модели, и представляем эффективное расширение, позволяющее строить межслойные графы атрибуции для длинных контекстов. Используя этот подход, мы проводим систематическое эмпирическое исследование на различных бенчмарках, сравнивая паттерны атрибуции между наборами данных, размерами моделей и контрольными точками обучения. Наши результаты показывают, что контрастная атрибуция на уровне токенов может давать информативные сигналы в некоторых случаях сбоев, но не является универсально применимой, что подчеркивает как её полезность, так и ограничения для реалистичного анализа ошибок LLM. Наш код доступен по адресу: https://aka.ms/Debug-XAI.

English

Interpretability tools are increasingly used to analyze failures of Large Language Models (LLMs), yet prior work largely focuses on short prompts or toy settings, leaving their behavior on commonly used benchmarks underexplored. To address this gap, we study contrastive, LRP-based attribution as a practical tool for analyzing LLM failures in realistic settings. We formulate failure analysis as contrastive attribution, attributing the logit difference between an incorrect output token and a correct alternative to input tokens and internal model states, and introduce an efficient extension that enables construction of cross-layer attribution graphs for long-context inputs. Using this framework, we conduct a systematic empirical study across benchmarks, comparing attribution patterns across datasets, model sizes, and training checkpoints. Our results show that this token-level contrastive attribution can yield informative signals in some failure cases, but is not universally applicable, highlighting both its utility and its limitations for realistic LLM failure analysis. Our code is available at: https://aka.ms/Debug-XAI.

Контрастная атрибуция в реальных условиях: интерпретируемый анализ ошибок больших языковых моделей на реалистичных бенчмарках

Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

Аннотация

Support