Explicabilidad de LLM mediante cadenas contrafactuales y gráficos causales

Resumen

Los gráficos causales proporcionan un lenguaje de alto nivel para transparentar los mecanismos subyacentes. Trabajos recientes utilizan Modelos de Lenguaje de Gran Escala (LLMs) para recuperar gráficos causales de procesos del mundo externo. En cambio, en este artículo empleamos gráficos causales para modelar la propia inferencia de los LLMs, ofreciendo a los interesados una visión transparente de cómo el modelo percibe y organiza conceptos de alto nivel para generar una predicción. Proponemos un método de cuatro fases para construir dichos gráficos. Dado un LLM objetivo y un conjunto de ejemplos textuales, nuestro método descubre conceptos discriminativos de clases e interpretables por humanos, y mapea cada entrada a estados conceptuales percibidos por el LLM. A continuación, introducimos un procedimiento de aumentación contrafactual inspirado en MCMC que expande los datos observacionales dispersos mediante cadenas de contrafactuales. Esto permite un descubrimiento causal estable con σ-CG, generando gráficos informativos e interpretables. Aplicamos nuestro método a tres LLMs en tareas de diagnóstico de enfermedades, análisis de sentimientos y clasificación con LLM como juez. Evaluamos los gráficos aprendidos en cuanto a fidelidad predictiva y estabilidad estructural, así como la aumentación inspirada en MCMC en términos de convergencia y utilidad descendente. Nuestros resultados muestran que los gráficos causales descubiertos capturan dependencias significativas coherentes con el razonamiento de los LLMs. En conjunto, este artículo sienta las bases para la explicabilidad a nivel de concepto de los LLMs.

English

Causal graphs provide a high-level language for making mechanisms transparent. Recent work uses Large Language Models (LLMs) to recover causal graphs of external-world processes. Instead, in this paper, we use causal graphs to model LLM inference itself, providing stakeholders with a transparent view of how the model perceives and organizes high-level concepts to produce a prediction. We propose a four-phase method for constructing such graphs. Given a target LLM and a set of textual examples, our method discovers class-discriminative, human-interpretable concepts and maps each input to LLM-perceived concept states. We then introduce an MCMC-inspired counterfactual augmentation procedure that expands the sparse observational data through chains of counterfactuals. This enables stable causal discovery with σ-CG, yielding informative, interpretable graphs. We apply our method to three LLMs across disease diagnosis, sentiment analysis, and LLM-as-a-judge classification tasks. We evaluate the learned graphs for predictive fidelity and structural stability, and the MCMC-inspired augmentation for convergence and downstream utility. Our results show that the discovered causal graphs capture meaningful dependencies consistent with LLMs' reasoning. Together, this paper provides a foundation for concept-level explainability of LLMs.