Explicabilité des LLM avec des chaînes contrefactuelles et des graphes causaux

Résumé

Les graphes causaux fournissent un langage de haut niveau pour rendre les mécanismes transparents. Des travaux récents utilisent les grands modèles de langage (LLMs) pour reconstruire les graphes causaux de processus du monde extérieur. Au contraire, dans cet article, nous utilisons les graphes causaux pour modéliser l'inférence même des LLMs, offrant aux parties prenantes une vue transparente de la façon dont le modèle perçoit et organise les concepts de haut niveau pour produire une prédiction. Nous proposons une méthode en quatre phases pour construire de tels graphes. Étant donné un LLM cible et un ensemble d'exemples textuels, notre méthode découvre des concepts discriminants de classe et interprétables par l'humain, et associe chaque entrée à des états de concepts perçus par le LLM. Nous introduisons ensuite une procédure d'augmentation contrefactuelle inspirée de MCMC qui étend les données d'observation éparses à travers des chaînes de contrefactuels. Cela permet une découverte causale stable avec σ-CG, produisant des graphes informatifs et interprétables. Nous appliquons notre méthode à trois LLMs dans des tâches de diagnostic de maladies, d'analyse de sentiments et de classification LLM-en-tant-que-juge. Nous évaluons les graphes appris pour la fidélité prédictive et la stabilité structurelle, et l'augmentation inspirée de MCMC pour la convergence et l'utilité en aval. Nos résultats montrent que les graphes causaux découverts capturent des dépendances significatives cohérentes avec le raisonnement des LLMs. Dans l'ensemble, cet article fournit une base pour l'explicabilité au niveau des concepts des LLMs.

English

Causal graphs provide a high-level language for making mechanisms transparent. Recent work uses Large Language Models (LLMs) to recover causal graphs of external-world processes. Instead, in this paper, we use causal graphs to model LLM inference itself, providing stakeholders with a transparent view of how the model perceives and organizes high-level concepts to produce a prediction. We propose a four-phase method for constructing such graphs. Given a target LLM and a set of textual examples, our method discovers class-discriminative, human-interpretable concepts and maps each input to LLM-perceived concept states. We then introduce an MCMC-inspired counterfactual augmentation procedure that expands the sparse observational data through chains of counterfactuals. This enables stable causal discovery with σ-CG, yielding informative, interpretable graphs. We apply our method to three LLMs across disease diagnosis, sentiment analysis, and LLM-as-a-judge classification tasks. We evaluate the learned graphs for predictive fidelity and structural stability, and the MCMC-inspired augmentation for convergence and downstream utility. Our results show that the discovered causal graphs capture meaningful dependencies consistent with LLMs' reasoning. Together, this paper provides a foundation for concept-level explainability of LLMs.