Grafici di Concetti Causali nello Spazio Latente degli LLM per il Ragionamento Graduale

Abstract

Gli autoencoder sparsi possono localizzare dove risiedono i concetti nei modelli linguistici, ma non come questi interagiscono durante ragionamenti a più passaggi. Proponiamo i Causal Concept Graphs (CCG): un grafo aciclico diretto su feature latenti sparse e interpretabili, dove gli archi catturano dipendenze causali apprese tra i concetti. Combiniamo autoencoder sparsi condizionati al compito per la scoperta di concetti con l'apprendimento differenziabile della struttura in stile DAGMA per il recupero del grafo e introduciamo il Causal Fidelity Score (CFS) per valutare se interventi guidati dal grafo inducono effetti a valle maggiori rispetto a interventi casuali. Su ARC-Challenge, StrategyQA e LogiQA con GPT-2 Medium, su cinque seed (n=15 esecuzioni appaiate), CCG raggiunge CFS=5.654±0.625, superando la tracciatura in stile ROME (3.382±0.233), il ranking con solo SAE (2.479±0.196) e una baseline casuale (1.032±0.034), con p<0.0001 dopo correzione di Bonferroni. I grafi appresi sono sparsi (densità di archi del 5-6%), specifici del dominio e stabili attraverso i seed.

English

Sparse autoencoders can localize where concepts live in language models, but not how they interact during multi-step reasoning. We propose Causal Concept Graphs (CCG): a directed acyclic graph over sparse, interpretable latent features, where edges capture learned causal dependencies between concepts. We combine task-conditioned sparse autoencoders for concept discovery with DAGMA-style differentiable structure learning for graph recovery and introduce the Causal Fidelity Score (CFS) to evaluate whether graph-guided interventions induce larger downstream effects than random ones. On ARC-Challenge, StrategyQA, and LogiQA with GPT-2 Medium, across five seeds (n{=}15 paired runs), CCG achieves CFS=5.654pm0.625, outperforming ROME-style tracing (3.382pm0.233), SAE-only ranking (2.479pm0.196), and a random baseline (1.032pm0.034), with p<0.0001 after Bonferroni correction. Learned graphs are sparse (5-6\% edge density), domain-specific, and stable across seeds.

Grafici di Concetti Causali nello Spazio Latente degli LLM per il Ragionamento Graduale

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Abstract

Support