Причинно-следственные концептуальные графы в латентном пространстве больших языковых моделей для пошаговых рассуждений

Аннотация

Разреженные автоэнкодеры способны локализовать, где в языковых моделях находятся концепции, но не то, как они взаимодействуют при многошаговых рассуждениях. Мы предлагаем Причинные Концептуальные Графы (CCG): ориентированный ациклический граф над разреженными, интерпретируемыми латентными признаками, где рёбра отражают выученные причинно-следственные зависимости между концепциями. Мы объединяем задачно-ориентированные разреженные автоэнкодеры для обнаружения концепций с дифференцируемым обучением структуры в стиле DAGMA для восстановления графа и вводим Оценку Причинной Достоверности (CFS), чтобы оценить, вызывают ли граф-направленные интервенции больший эффект на последующих этапах по сравнению со случайными. На ARC-Challenge, StrategyQA и LogiQA с GPT-2 Medium, по пяти сидам (n=15 парных запусков), CCG достигает CFS=5.654±0.625, превосходя трассировку в стиле ROME (3.382±0.233), ранжирование только на основе SAE (2.479±0.196) и случайный базовый уровень (1.032±0.034), с p<0.0001 после поправки Бонферрони. Выученные графы являются разреженными (плотность рёбер 5–6%), предметно-ориентированными и стабильными across seeds.

English

Sparse autoencoders can localize where concepts live in language models, but not how they interact during multi-step reasoning. We propose Causal Concept Graphs (CCG): a directed acyclic graph over sparse, interpretable latent features, where edges capture learned causal dependencies between concepts. We combine task-conditioned sparse autoencoders for concept discovery with DAGMA-style differentiable structure learning for graph recovery and introduce the Causal Fidelity Score (CFS) to evaluate whether graph-guided interventions induce larger downstream effects than random ones. On ARC-Challenge, StrategyQA, and LogiQA with GPT-2 Medium, across five seeds (n{=}15 paired runs), CCG achieves CFS=5.654pm0.625, outperforming ROME-style tracing (3.382pm0.233), SAE-only ranking (2.479pm0.196), and a random baseline (1.032pm0.034), with p<0.0001 after Bonferroni correction. Learned graphs are sparse (5-6\% edge density), domain-specific, and stable across seeds.

Причинно-следственные концептуальные графы в латентном пространстве больших языковых моделей для пошаговых рассуждений

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Аннотация

Support