Объяснимость LLM с помощью контрфактических цепочек и каузальных графов

Аннотация

Причинно-следственные графы предоставляют высокоуровневый язык для обеспечения прозрачности механизмов. В недавних работах большие языковые модели (БЯМ) используются для восстановления причинно-следственных графов процессов внешнего мира. В данной статье, напротив, мы применяем причинно-следственные графы для моделирования самого процесса вывода БЯМ, предоставляя заинтересованным сторонам прозрачное представление о том, как модель воспринимает и организует высокоуровневые концепции для формирования прогноза. Мы предлагаем четырехфазный метод построения таких графов. Для заданной целевой БЯМ и набора текстовых примеров наш метод обнаруживает класс-дискриминативные, интерпретируемые человеком концепции и сопоставляет каждому входному примеру состояния концепций, воспринимаемые БЯМ. Затем мы вводим процедуру аугментации контрфактуалов, вдохновленную методом MCMC, которая расширяет разреженные наблюдательные данные с помощью цепочек контрфактуалов. Это обеспечивает стабильное выявление причинно-следственных связей с помощью σ-CG, позволяя получать информативные, интерпретируемые графы. Мы применяем наш метод к трем БЯМ в задачах диагностики заболеваний, анализа тональности и классификации с использованием БЯМ в роли судьи. Мы оцениваем полученные графы по предсказательной точности и структурной устойчивости, а MCMC-вдохновленную аугментацию — по сходимости и полезности для последующих задач. Наши результаты показывают, что обнаруженные причинно-следственные графы отражают осмысленные зависимости, согласующиеся с рассуждениями БЯМ. Таким образом, данная статья закладывает основу для объяснимости БЯМ на уровне концепций.

English

Causal graphs provide a high-level language for making mechanisms transparent. Recent work uses Large Language Models (LLMs) to recover causal graphs of external-world processes. Instead, in this paper, we use causal graphs to model LLM inference itself, providing stakeholders with a transparent view of how the model perceives and organizes high-level concepts to produce a prediction. We propose a four-phase method for constructing such graphs. Given a target LLM and a set of textual examples, our method discovers class-discriminative, human-interpretable concepts and maps each input to LLM-perceived concept states. We then introduce an MCMC-inspired counterfactual augmentation procedure that expands the sparse observational data through chains of counterfactuals. This enables stable causal discovery with σ-CG, yielding informative, interpretable graphs. We apply our method to three LLMs across disease diagnosis, sentiment analysis, and LLM-as-a-judge classification tasks. We evaluate the learned graphs for predictive fidelity and structural stability, and the MCMC-inspired augmentation for convergence and downstream utility. Our results show that the discovered causal graphs capture meaningful dependencies consistent with LLMs' reasoning. Together, this paper provides a foundation for concept-level explainability of LLMs.