실제 벤치마크에서의 LLM 실패 해석 분석: 대조적 귀인 접근법
Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks
April 20, 2026
저자: Rongyuan Tan, Jue Zhang, Zhuozhao Li, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
초록
해석 가능성 도구들은 대규모 언어 모델(LLM)의 실패를 분석하는 데 점점 더 많이 사용되고 있지만, 기존 연구는 주로 짧은 프롬프트나 단순한 설정에 집중하여 일반적으로 사용되는 벤치마크에서의 도구 행동은 충분히 탐구되지 않았습니다. 이러한 공백을 해소하기 위해 우리는 현실적인 설정에서 LLM 실패를 분석하는 실용적 도구로서 대조적 LRP 기반 귀속 방법을 연구합니다. 우리는 실패 분석을 대조적 귀속으로 공식화하며, 잘못된 출력 토큰과 정답 대안 간의 로짓 차이를 입력 토큰과 내부 모델 상태에 귀속시키고, 장문 맥락 입력에 대한 교차 계층 귀속 그래프 구성을 가능하게 하는 효율적인 확장 기법을 소개합니다. 이 프레임워크를 사용하여 다양한 벤치마크에 걸쳐 체계적인 실증 연구를 수행하며, 데이터셋, 모델 크기, 학습 체크포인트별 귀속 패턴을 비교합니다. 우리의 결과는 이 토큰 수준 대조적 귀속이 일부 실패 사례에서 유의미한 신호를 제공할 수 있지만 보편적으로 적용 가능한 것은 아니어서, 현실적 LLM 실패 분석에 대한 해당 방법의 유용성과 한계를 동시에 부각합니다. 우리의 코드는 https://aka.ms/Debug-XAI에서 확인할 수 있습니다.
English
Interpretability tools are increasingly used to analyze failures of Large Language Models (LLMs), yet prior work largely focuses on short prompts or toy settings, leaving their behavior on commonly used benchmarks underexplored. To address this gap, we study contrastive, LRP-based attribution as a practical tool for analyzing LLM failures in realistic settings. We formulate failure analysis as contrastive attribution, attributing the logit difference between an incorrect output token and a correct alternative to input tokens and internal model states, and introduce an efficient extension that enables construction of cross-layer attribution graphs for long-context inputs. Using this framework, we conduct a systematic empirical study across benchmarks, comparing attribution patterns across datasets, model sizes, and training checkpoints. Our results show that this token-level contrastive attribution can yield informative signals in some failure cases, but is not universally applicable, highlighting both its utility and its limitations for realistic LLM failure analysis. Our code is available at: https://aka.ms/Debug-XAI.