LLM-uitlegbaarheid met contrafeitelijke ketens en causale grafen

Samenvatting

Causale grafieken bieden een taal op hoog niveau om mechanismen transparant te maken. Recent werk gebruikt grote taalmodellen (LLM's) om causale grafieken van processen in de buitenwereld te achterhalen. In dit artikel gebruiken we in plaats daarvan causale grafieken om de inferentie van LLM's zelf te modelleren, waardoor belanghebbenden een transparant beeld krijgen van hoe het model concepten op hoog niveau waarneemt en organiseert om een voorspelling te produceren. We stellen een vierfasige methode voor om dergelijke grafieken te construeren. Gegeven een doel-LLM en een reeks tekstuele voorbeelden ontdekt onze methode klasse-discriminatieve, menselijk interpreteerbare concepten en brengt elke invoer in kaart naar door de LLM waargenomen concepttoestanden. Vervolgens introduceren we een op MCMC geïnspireerde contrafactuele augmentatieprocedure die de schaarse observationele gegevens uitbreidt via ketens van contrafacten. Dit maakt stabiele causale ontdekking met σ-CG mogelijk, wat leidt tot informatieve, interpreteerbare grafieken. We passen onze methode toe op drie LLM's op het gebied van ziektediagnose, sentimentanalyse en LLM-als-rechter-classificatietaken. We evalueren de geleerde grafieken op voorspellingsgetrouwheid en structurele stabiliteit, en de op MCMC geïnspireerde augmentatie op convergentie en nut in downstream-toepassingen. Onze resultaten tonen aan dat de ontdekte causale grafieken betekenisvolle afhankelijkheden vastleggen die consistent zijn met de redenering van LLM's. Tezamen biedt dit artikel een basis voor verklaarbaarheid op conceptniveau van LLM's.

English

Causal graphs provide a high-level language for making mechanisms transparent. Recent work uses Large Language Models (LLMs) to recover causal graphs of external-world processes. Instead, in this paper, we use causal graphs to model LLM inference itself, providing stakeholders with a transparent view of how the model perceives and organizes high-level concepts to produce a prediction. We propose a four-phase method for constructing such graphs. Given a target LLM and a set of textual examples, our method discovers class-discriminative, human-interpretable concepts and maps each input to LLM-perceived concept states. We then introduce an MCMC-inspired counterfactual augmentation procedure that expands the sparse observational data through chains of counterfactuals. This enables stable causal discovery with σ-CG, yielding informative, interpretable graphs. We apply our method to three LLMs across disease diagnosis, sentiment analysis, and LLM-as-a-judge classification tasks. We evaluate the learned graphs for predictive fidelity and structural stability, and the MCMC-inspired augmentation for convergence and downstream utility. Our results show that the discovered causal graphs capture meaningful dependencies consistent with LLMs' reasoning. Together, this paper provides a foundation for concept-level explainability of LLMs.