Grafos de Conceitos Causais no Espaço Latente de LLMs para Raciocínio em Etapas

Resumo

Os autoencoders esparsos podem localizar onde os conceitos residem em modelos de linguagem, mas não como eles interagem durante o raciocínio de múltiplos passos. Propomos os Grafos de Conceitos Causais (CCG): um grafo acíclico direcionado sobre características latentes esparsas e interpretáveis, onde as arestas capturam dependências causais aprendidas entre conceitos. Combinamos autoencoders esparsos condicionados por tarefas para descoberta de conceitos com aprendizado de estrutura diferenciável no estilo DAGMA para recuperação do grafo e introduzimos o Escore de Fidelidade Causal (CFS) para avaliar se intervenções guiadas pelo grafo induzem maiores efeitos a jusante do que intervenções aleatórias. No ARC-Challenge, StrategyQA e LogiQA com GPT-2 Medium, em cinco seeds (n=15 execuções pareadas), o CCG alcança CFS=5.654±0.625, superando o rastreamento no estilo ROME (3.382±0.233), o ranqueamento apenas com SAE (2.479±0.196) e uma linha de base aleatória (1.032±0.034), com p<0.0001 após correção de Bonferroni. Os grafos aprendidos são esparsos (densidade de arestas de 5-6%), específicos do domínio e estáveis entre seeds.

English

Sparse autoencoders can localize where concepts live in language models, but not how they interact during multi-step reasoning. We propose Causal Concept Graphs (CCG): a directed acyclic graph over sparse, interpretable latent features, where edges capture learned causal dependencies between concepts. We combine task-conditioned sparse autoencoders for concept discovery with DAGMA-style differentiable structure learning for graph recovery and introduce the Causal Fidelity Score (CFS) to evaluate whether graph-guided interventions induce larger downstream effects than random ones. On ARC-Challenge, StrategyQA, and LogiQA with GPT-2 Medium, across five seeds (n{=}15 paired runs), CCG achieves CFS=5.654pm0.625, outperforming ROME-style tracing (3.382pm0.233), SAE-only ranking (2.479pm0.196), and a random baseline (1.032pm0.034), with p<0.0001 after Bonferroni correction. Learned graphs are sparse (5-6\% edge density), domain-specific, and stable across seeds.

Grafos de Conceitos Causais no Espaço Latente de LLMs para Raciocínio em Etapas

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Resumo

Support