Kontrastive Attribuierung in der Praxis: Eine Interpretierbarkeitsanalyse von LLM-Fehlschlägen auf realistischen Benchmarks

Zusammenfassung

Interpretierbarkeitstools werden zunehmend eingesetzt, um Fehler von Large Language Models (LLMs) zu analysieren. Bisherige Arbeiten konzentrieren sich jedoch weitgehend auf kurze Prompts oder vereinfachte Testumgebungen, wodurch ihr Verhalten auf häufig verwendeten Benchmarks unzureichend erforscht bleibt. Um diese Lücke zu schließen, untersuchen wir kontrastive, LRP-basierte Attribution als praktisches Werkzeug zur Analyse von LLM-Fehlern in realistischen Szenarien. Wir formulieren die Fehleranalyse als kontrastive Attribution, bei der die Logit-Differenz zwischen einem falschen Ausgabetoken und einer korrekten Alternative auf Eingabetokens und interne Modellzustände zurückgeführt wird, und führen eine effiziente Erweiterung ein, die die Konstruktion von attributionsbasierten Graphen über Schichten hinweg für Eingaben mit langem Kontext ermöglicht. Mit diesem Framework führen wir eine systematische empirische Studie über Benchmarks hinweg durch und vergleichen Attributionsmuster über verschiedene Datensätze, Modellgrößen und Trainings-Checkpoints hinweg. Unsere Ergebnisse zeigen, dass diese token-basierte kontrastive Attribution in einigen Fehlerfällen informative Signale liefern kann, jedoch nicht universell anwendbar ist, was sowohl ihren Nutzen als auch ihre Grenzen für die realistische Fehleranalyse von LLMs verdeutlicht. Unser Code ist verfügbar unter: https://aka.ms/Debug-XAI.

English

Interpretability tools are increasingly used to analyze failures of Large Language Models (LLMs), yet prior work largely focuses on short prompts or toy settings, leaving their behavior on commonly used benchmarks underexplored. To address this gap, we study contrastive, LRP-based attribution as a practical tool for analyzing LLM failures in realistic settings. We formulate failure analysis as contrastive attribution, attributing the logit difference between an incorrect output token and a correct alternative to input tokens and internal model states, and introduce an efficient extension that enables construction of cross-layer attribution graphs for long-context inputs. Using this framework, we conduct a systematic empirical study across benchmarks, comparing attribution patterns across datasets, model sizes, and training checkpoints. Our results show that this token-level contrastive attribution can yield informative signals in some failure cases, but is not universally applicable, highlighting both its utility and its limitations for realistic LLM failure analysis. Our code is available at: https://aka.ms/Debug-XAI.

Kontrastive Attribuierung in der Praxis: Eine Interpretierbarkeitsanalyse von LLM-Fehlschlägen auf realistischen Benchmarks

Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

Zusammenfassung

Support