現実的ベンチマークにおけるLLM失敗事例の解釈可能性分析:対照的帰属手法による検証
Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks
April 20, 2026
著者: Rongyuan Tan, Jue Zhang, Zhuozhao Li, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
要旨
大規模言語モデル(LLM)の失敗事例を分析するための解釈可能性ツールの利用が増加しているが、既存研究は主に短いプロンプトや単純な設定に焦点を当てており、一般的に使用されるベンチマークにおけるそれらの挙動は十分に検討されていない。この課題に対処するため、我々は現実的な設定におけるLLMの失敗分析の実用的ツールとして、対照的なLRPベースの帰属分析を検討する。我々は失敗分析を対照的帰属問題として定式化し、誤った出力トークンと正しい代替トークン間のロジット差を入力トークンおよび内部モデル状態に帰属させるとともに、長文脈入力における層間帰属グラフの構築を可能にする効率的な拡張手法を提案する。この枠組みを用いて、ベンチマーク横断的な系統的実証研究を実施し、データセット・モデルサイズ・学習チェックポイント間での帰属パターンを比較する。結果から、このトークンレベルの対照的帰属分析が一部の失敗事例において有益な信号をもたらし得る一方、普遍的に適用可能ではないことが明らかとなり、現実的なLLM失敗分析における有用性と限界の両方が示された。コードはhttps://aka.ms/Debug-XAIで公開している。
English
Interpretability tools are increasingly used to analyze failures of Large Language Models (LLMs), yet prior work largely focuses on short prompts or toy settings, leaving their behavior on commonly used benchmarks underexplored. To address this gap, we study contrastive, LRP-based attribution as a practical tool for analyzing LLM failures in realistic settings. We formulate failure analysis as contrastive attribution, attributing the logit difference between an incorrect output token and a correct alternative to input tokens and internal model states, and introduce an efficient extension that enables construction of cross-layer attribution graphs for long-context inputs. Using this framework, we conduct a systematic empirical study across benchmarks, comparing attribution patterns across datasets, model sizes, and training checkpoints. Our results show that this token-level contrastive attribution can yield informative signals in some failure cases, but is not universally applicable, highlighting both its utility and its limitations for realistic LLM failure analysis. Our code is available at: https://aka.ms/Debug-XAI.