Explicabilidade de LLMs com Cadeias Contrafactuais e Grafos Causais

Resumo

Os grafos causais fornecem uma linguagem de alto nível para tornar os mecanismos transparentes. Trabalhos recentes utilizam Modelos de Linguagem de Grande Escala (LLMs) para recuperar grafos causais de processos do mundo externo. Neste artigo, ao contrário, utilizamos grafos causais para modelar a própria inferência dos LLMs, proporcionando às partes interessadas uma visão transparente de como o modelo percebe e organiza conceitos de alto nível para produzir uma predição. Propomos um método em quatro fases para construir tais grafos. Dados um LLM alvo e um conjunto de exemplos textuais, nosso método descobre conceitos interpretáveis por humanos e discriminativos de classes, e mapeia cada entrada para estados de conceitos percebidos pelo LLM. Em seguida, introduzimos um procedimento de aumento contrafactual inspirado em MCMC, que expande os dados observacionais esparsos por meio de cadeias de contrafactuais. Isso possibilita a descoberta causal estável com σ-CG, resultando em grafos informativos e interpretáveis. Aplicamos nosso método a três LLMs em tarefas de diagnóstico de doenças, análise de sentimentos e classificação LLM-como-juiz. Avaliamos os grafos aprendidos quanto à fidelidade preditiva e estabilidade estrutural, e o aumento inspirado em MCMC quanto à convergência e utilidade subsequente. Nossos resultados mostram que os grafos causais descobertos capturam dependências significativas, consistentes com o raciocínio dos LLMs. Em conjunto, este artigo fornece uma base para a explicabilidade em nível de conceito dos LLMs.

English

Causal graphs provide a high-level language for making mechanisms transparent. Recent work uses Large Language Models (LLMs) to recover causal graphs of external-world processes. Instead, in this paper, we use causal graphs to model LLM inference itself, providing stakeholders with a transparent view of how the model perceives and organizes high-level concepts to produce a prediction. We propose a four-phase method for constructing such graphs. Given a target LLM and a set of textual examples, our method discovers class-discriminative, human-interpretable concepts and maps each input to LLM-perceived concept states. We then introduce an MCMC-inspired counterfactual augmentation procedure that expands the sparse observational data through chains of counterfactuals. This enables stable causal discovery with σ-CG, yielding informative, interpretable graphs. We apply our method to three LLMs across disease diagnosis, sentiment analysis, and LLM-as-a-judge classification tasks. We evaluate the learned graphs for predictive fidelity and structural stability, and the MCMC-inspired augmentation for convergence and downstream utility. Our results show that the discovered causal graphs capture meaningful dependencies consistent with LLMs' reasoning. Together, this paper provides a foundation for concept-level explainability of LLMs.