Gráficos de Conceptos Causales en el Espacio Latente de los LLM para el Razonamiento Escalonado

Resumen

Los autoencoders dispersos pueden localizar dónde residen los conceptos en los modelos de lenguaje, pero no cómo interactúan durante el razonamiento de múltiples pasos. Proponemos Grafos de Conceptos Causales (CCG): un grafo acíclico dirigido sobre características latentes dispersas e interpretables, donde las aristas capturan dependencias causales aprendidas entre conceptos. Combinamos autoencoders dispersos condicionados por tareas para el descubrimiento de conceptos con aprendizaje de estructura diferenciable al estilo DAGMA para la recuperación del grafo e introducimos la Puntuación de Fidelidad Causal (CFS) para evaluar si las intervenciones guiadas por el grafo inducen efectos posteriores mayores que las intervenciones aleatorias. En ARC-Challenge, StrategyQA y LogiQA con GPT-2 Medium, a lo largo de cinco semillas (n=15 ejecuciones pareadas), CCG alcanza CFS=5.654±0.625, superando al trazado estilo ROME (3.382±0.233), a la clasificación basada solo en SAE (2.479±0.196) y a una línea base aleatoria (1.032±0.034), con p<0.0001 después de la corrección de Bonferroni. Los grafos aprendidos son dispersos (densidad de aristas del 5-6%), específicos del dominio y estables entre semillas.

English

Sparse autoencoders can localize where concepts live in language models, but not how they interact during multi-step reasoning. We propose Causal Concept Graphs (CCG): a directed acyclic graph over sparse, interpretable latent features, where edges capture learned causal dependencies between concepts. We combine task-conditioned sparse autoencoders for concept discovery with DAGMA-style differentiable structure learning for graph recovery and introduce the Causal Fidelity Score (CFS) to evaluate whether graph-guided interventions induce larger downstream effects than random ones. On ARC-Challenge, StrategyQA, and LogiQA with GPT-2 Medium, across five seeds (n{=}15 paired runs), CCG achieves CFS=5.654pm0.625, outperforming ROME-style tracing (3.382pm0.233), SAE-only ranking (2.479pm0.196), and a random baseline (1.032pm0.034), with p<0.0001 after Bonferroni correction. Learned graphs are sparse (5-6\% edge density), domain-specific, and stable across seeds.

Gráficos de Conceptos Causales en el Espacio Latente de los LLM para el Razonamiento Escalonado

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Resumen

Support