LLM-Erklärbarkeit mit kontrafaktischen Ketten und kausalen Graphen

Zusammenfassung

Kausaldiagramme bieten eine hochrangige Sprache zur Transparentmachung von Mechanismen. Aktuelle Arbeiten nutzen große Sprachmodelle (LLMs), um Kausaldiagramme von Prozessen der Außenwelt zu rekonstruieren. Stattdessen verwenden wir in dieser Arbeit Kausaldiagramme, um die LLM-Inferenz selbst zu modellieren und den Stakeholdern eine transparente Sicht darauf zu bieten, wie das Modell hochrangige Konzepte wahrnimmt und organisiert, um eine Vorhersage zu treffen. Wir schlagen eine vierphasige Methode zur Konstruktion solcher Diagramme vor. Gegeben ein Ziel-LLM und eine Reihe von Textbeispielen entdeckt unsere Methode klassendiskriminierende, für Menschen interpretierbare Konzepte und ordnet jede Eingabe den vom LLM wahrgenommenen Konzeptzuständen zu. Anschließend führen wir ein von MCMC inspiriertes Verfahren zur kontrafaktischen Augmentierung ein, das die spärlichen Beobachtungsdaten durch Ketten von Kontrafaktiken erweitert. Dies ermöglicht eine stabile kausale Entdeckung mit σ-CG, was zu informativen, interpretierbaren Diagrammen führt. Wir wenden unsere Methode auf drei LLMs in den Bereichen Krankheitsdiagnose, Stimmungsanalyse und LLM-als-Richter-Klassifikationsaufgaben an. Wir evaluieren die gelernten Diagramme hinsichtlich Vorhersagetreue und struktureller Stabilität sowie die von MCMC inspirierte Augmentierung hinsichtlich Konvergenz und nachgelagerter Nützlichkeit. Unsere Ergebnisse zeigen, dass die entdeckten Kausaldiagramme sinnvolle Abhängigkeiten erfassen, die mit der Argumentation von LLMs übereinstimmen. Zusammenfassend legt diese Arbeit eine Grundlage für die Erklärbarkeit von LLMs auf Konzeptebene.

English

Causal graphs provide a high-level language for making mechanisms transparent. Recent work uses Large Language Models (LLMs) to recover causal graphs of external-world processes. Instead, in this paper, we use causal graphs to model LLM inference itself, providing stakeholders with a transparent view of how the model perceives and organizes high-level concepts to produce a prediction. We propose a four-phase method for constructing such graphs. Given a target LLM and a set of textual examples, our method discovers class-discriminative, human-interpretable concepts and maps each input to LLM-perceived concept states. We then introduce an MCMC-inspired counterfactual augmentation procedure that expands the sparse observational data through chains of counterfactuals. This enables stable causal discovery with σ-CG, yielding informative, interpretable graphs. We apply our method to three LLMs across disease diagnosis, sentiment analysis, and LLM-as-a-judge classification tasks. We evaluate the learned graphs for predictive fidelity and structural stability, and the MCMC-inspired augmentation for convergence and downstream utility. Our results show that the discovered causal graphs capture meaningful dependencies consistent with LLMs' reasoning. Together, this paper provides a foundation for concept-level explainability of LLMs.