Découvrir les capacités latentes hiérarchiques des modèles de langage via l'apprentissage de représentation causale
Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning
June 12, 2025
Auteurs: Jikai Jin, Vasilis Syrgkanis, Sham Kakade, Hanlin Zhang
cs.AI
Résumé
L'évaluation fidèle des capacités des modèles de langage est cruciale pour dériver des insights exploitables pouvant orienter le développement des modèles. Cependant, les évaluations causales rigoureuses dans ce domaine se heurtent à d'importants défis méthodologiques, notamment des effets de confusion complexes et des coûts de calcul prohibitifs associés à des réentraînements extensifs. Pour relever ces défis, nous proposons un cadre d'apprentissage de représentations causales dans lequel les performances observées sur des benchmarks sont modélisées comme une transformation linéaire de quelques facteurs de capacité latents. Ces facteurs latents sont identifiés comme étant causalement interconnectés après avoir correctement contrôlé le modèle de base en tant que facteur de confusion commun. En appliquant cette approche à un ensemble de données complet englobant plus de 1500 modèles évalués sur six benchmarks du Open LLM Leaderboard, nous identifions une structure causale linéaire à trois nœuds qui explique de manière fiable les variations de performances observées. L'interprétation approfondie de cette structure causale fournit des insights scientifiques substantiels au-delà de simples classements numériques : en particulier, nous révélons une direction causale claire partant des capacités générales de résolution de problèmes, passant par la maîtrise du suivi d'instructions, et culminant dans la capacité de raisonnement mathématique. Nos résultats soulignent le rôle essentiel d'un contrôle minutieux des variations du modèle de base lors de l'évaluation, une étape critique pour découvrir avec précision les relations causales sous-jacentes entre les capacités latentes des modèles.
English
Faithful evaluation of language model capabilities is crucial for deriving
actionable insights that can inform model development. However, rigorous causal
evaluations in this domain face significant methodological challenges,
including complex confounding effects and prohibitive computational costs
associated with extensive retraining. To tackle these challenges, we propose a
causal representation learning framework wherein observed benchmark performance
is modeled as a linear transformation of a few latent capability factors.
Crucially, these latent factors are identified as causally interrelated after
appropriately controlling for the base model as a common confounder. Applying
this approach to a comprehensive dataset encompassing over 1500 models
evaluated across six benchmarks from the Open LLM Leaderboard, we identify a
concise three-node linear causal structure that reliably explains the observed
performance variations. Further interpretation of this causal structure
provides substantial scientific insights beyond simple numerical rankings:
specifically, we reveal a clear causal direction starting from general
problem-solving capabilities, advancing through instruction-following
proficiency, and culminating in mathematical reasoning ability. Our results
underscore the essential role of carefully controlling base model variations
during evaluation, a step critical to accurately uncovering the underlying
causal relationships among latent model capabilities.