Graphes de concepts causaux dans l'espace latent des LLM pour un raisonnement pas à pas

Résumé

Les autoencodeurs épars peuvent localiser où les concepts résident dans les modèles de langage, mais pas comment ils interagissent lors de raisonnements multi-étapes. Nous proposons les Graphes de Concepts Causaux (CCG) : un graphe acyclique orienté sur des caractéristiques latentes éparses et interprétables, où les arêtes capturent des dépendances causales apprises entre les concepts. Nous combinons des autoencodeurs épars conditionnés par tâche pour la découverte de concepts avec un apprentissage de structure différentiable de style DAGMA pour la récupération du graphe, et introduisons le Score de Fidélité Causale (CFS) pour évaluer si les interventions guidées par le graphe induisent des effets en aval plus importants que des interventions aléatoires. Sur ARC-Challenge, StrategyQA et LogiQA avec GPT-2 Medium, sur cinq initialisations (n=15 exécutions appariées), CCG atteint un CFS=5,654±0,625, surpassant le traçage de style ROME (3,382±0,233), le classement par SAE seul (2,479±0,196) et une base de référence aléatoire (1,032±0,034), avec p<0,0001 après correction de Bonferroni. Les graphes appris sont épars (densité d'arêtes de 5-6%), spécifiques au domaine et stables entre les initialisations.

English

Sparse autoencoders can localize where concepts live in language models, but not how they interact during multi-step reasoning. We propose Causal Concept Graphs (CCG): a directed acyclic graph over sparse, interpretable latent features, where edges capture learned causal dependencies between concepts. We combine task-conditioned sparse autoencoders for concept discovery with DAGMA-style differentiable structure learning for graph recovery and introduce the Causal Fidelity Score (CFS) to evaluate whether graph-guided interventions induce larger downstream effects than random ones. On ARC-Challenge, StrategyQA, and LogiQA with GPT-2 Medium, across five seeds (n{=}15 paired runs), CCG achieves CFS=5.654pm0.625, outperforming ROME-style tracing (3.382pm0.233), SAE-only ranking (2.479pm0.196), and a random baseline (1.032pm0.034), with p<0.0001 after Bonferroni correction. Learned graphs are sparse (5-6\% edge density), domain-specific, and stable across seeds.

Graphes de concepts causaux dans l'espace latent des LLM pour un raisonnement pas à pas

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Résumé

Support