Causale Conceptuele Grafieken in de Latente Ruimte van LLM's voor Stapsgewijs Redeneren

Samenvatting

Sparse autoencoders kunnen lokaliseren waar concepten zich bevinden in taalmodel(len), maar niet hoe ze tijdens meerstapsredenering interacteren. Wij stellen Causale Concept Grafen (CCG) voor: een gerichte acyclische graaf over sparse, interpreteerbare latente kenmerken, waarbij edges aangeleerde causale afhankelijkheden tussen concepten vastleggen. Wij combineren taak-geconditioneerde sparse autoencoders voor conceptontdekking met DAGMA-stijl differentieerbare structuurleren voor grafherstel en introduceren de Causale Fideliteitsscore (CFS) om te evalueren of graf-gestuurde interventies grotere downstream-effecten induceren dan willekeurige. Op ARC-Challenge, StrategyQA en LogiQA met GPT-2 Medium, over vijf seeds (n=15 gepaarde runs), behaalt CCG CFS=5.654±0.625, wat beter presteert dan ROME-stijl tracing (3.382±0.233), SAE-enkel ranking (2.479±0.196) en een willekeurige baseline (1.032±0.034), met p<0.0001 na Bonferroni-correctie. De aangeleerde grafen zijn sparse (5-6% edge-dichtheid), domeinspecifiek en stabiel over seeds heen.

English

Sparse autoencoders can localize where concepts live in language models, but not how they interact during multi-step reasoning. We propose Causal Concept Graphs (CCG): a directed acyclic graph over sparse, interpretable latent features, where edges capture learned causal dependencies between concepts. We combine task-conditioned sparse autoencoders for concept discovery with DAGMA-style differentiable structure learning for graph recovery and introduce the Causal Fidelity Score (CFS) to evaluate whether graph-guided interventions induce larger downstream effects than random ones. On ARC-Challenge, StrategyQA, and LogiQA with GPT-2 Medium, across five seeds (n{=}15 paired runs), CCG achieves CFS=5.654pm0.625, outperforming ROME-style tracing (3.382pm0.233), SAE-only ranking (2.479pm0.196), and a random baseline (1.032pm0.034), with p<0.0001 after Bonferroni correction. Learned graphs are sparse (5-6\% edge density), domain-specific, and stable across seeds.

Causale Conceptuele Grafieken in de Latente Ruimte van LLM's voor Stapsgewijs Redeneren

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Samenvatting

Support