Kausale Konzeptgraphen im latenten Raum von LLMs für schrittweises Reasoning

Zusammenfassung

Sparse Autoencoder können lokalisieren, wo Konzepte in Sprachmodellen verortet sind, aber nicht, wie diese bei mehrstufigen Schlussfolgerungen interagieren. Wir schlagen Causale Konzeptgraphen (CCG) vor: einen gerichteten azyklischen Graphen über spärliche, interpretierbare latente Merkmale, dessen Kanten erlernte kausale Abhängigkeiten zwischen Konzepten erfassen. Wir kombinieren aufgabenkonditionierte sparse Autoencoder zur Konzeptentdeckung mit DAGMA-artigem differenzierbarem Strukturlernen zur Graph-Rekonstruktion und führen den Causal Fidelity Score (CFS) ein, um zu bewerten, ob graphgesteuerte Interventionen größere Downstream-Effekte hervorrufen als zufällige. Auf ARC-Challenge, StrategyQA und LogiQA mit GPT-2 Medium erzielt CCG über fünf Seeds (n=15 gepaarte Durchläufe) einen CFS=5.654±0.625 und übertrifft damit ROME-artige Tracing-Verfahren (3.382±0.233), rein SAE-basierte Rangfolgen (2.479±0.196) und eine Zufallsbasis (1.032±0.034), mit p<0.0001 nach Bonferroni-Korrektur. Die erlernten Graphen sind spärlich (5-6\% Kantendichte), domänenspezifisch und stabil über Seeds hinweg.

English

Sparse autoencoders can localize where concepts live in language models, but not how they interact during multi-step reasoning. We propose Causal Concept Graphs (CCG): a directed acyclic graph over sparse, interpretable latent features, where edges capture learned causal dependencies between concepts. We combine task-conditioned sparse autoencoders for concept discovery with DAGMA-style differentiable structure learning for graph recovery and introduce the Causal Fidelity Score (CFS) to evaluate whether graph-guided interventions induce larger downstream effects than random ones. On ARC-Challenge, StrategyQA, and LogiQA with GPT-2 Medium, across five seeds (n{=}15 paired runs), CCG achieves CFS=5.654pm0.625, outperforming ROME-style tracing (3.382pm0.233), SAE-only ranking (2.479pm0.196), and a random baseline (1.032pm0.034), with p<0.0001 after Bonferroni correction. Learned graphs are sparse (5-6\% edge density), domain-specific, and stable across seeds.

Kausale Konzeptgraphen im latenten Raum von LLMs für schrittweises Reasoning

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Zusammenfassung

Support