Découvrir les capacités latentes hiérarchiques des modèles de langage via l'apprentissage de représentation causale

papers.abstract

L'évaluation fidèle des capacités des modèles de langage est cruciale pour dériver des insights exploitables pouvant orienter le développement des modèles. Cependant, les évaluations causales rigoureuses dans ce domaine se heurtent à d'importants défis méthodologiques, notamment des effets de confusion complexes et des coûts de calcul prohibitifs associés à des réentraînements extensifs. Pour relever ces défis, nous proposons un cadre d'apprentissage de représentations causales dans lequel les performances observées sur des benchmarks sont modélisées comme une transformation linéaire de quelques facteurs de capacité latents. Ces facteurs latents sont identifiés comme étant causalement interconnectés après avoir correctement contrôlé le modèle de base en tant que facteur de confusion commun. En appliquant cette approche à un ensemble de données complet englobant plus de 1500 modèles évalués sur six benchmarks du Open LLM Leaderboard, nous identifions une structure causale linéaire à trois nœuds qui explique de manière fiable les variations de performances observées. L'interprétation approfondie de cette structure causale fournit des insights scientifiques substantiels au-delà de simples classements numériques : en particulier, nous révélons une direction causale claire partant des capacités générales de résolution de problèmes, passant par la maîtrise du suivi d'instructions, et culminant dans la capacité de raisonnement mathématique. Nos résultats soulignent le rôle essentiel d'un contrôle minutieux des variations du modèle de base lors de l'évaluation, une étape critique pour découvrir avec précision les relations causales sous-jacentes entre les capacités latentes des modèles.

English

Faithful evaluation of language model capabilities is crucial for deriving actionable insights that can inform model development. However, rigorous causal evaluations in this domain face significant methodological challenges, including complex confounding effects and prohibitive computational costs associated with extensive retraining. To tackle these challenges, we propose a causal representation learning framework wherein observed benchmark performance is modeled as a linear transformation of a few latent capability factors. Crucially, these latent factors are identified as causally interrelated after appropriately controlling for the base model as a common confounder. Applying this approach to a comprehensive dataset encompassing over 1500 models evaluated across six benchmarks from the Open LLM Leaderboard, we identify a concise three-node linear causal structure that reliably explains the observed performance variations. Further interpretation of this causal structure provides substantial scientific insights beyond simple numerical rankings: specifically, we reveal a clear causal direction starting from general problem-solving capabilities, advancing through instruction-following proficiency, and culminating in mathematical reasoning ability. Our results underscore the essential role of carefully controlling base model variations during evaluation, a step critical to accurately uncovering the underlying causal relationships among latent model capabilities.

Découvrir les capacités latentes hiérarchiques des modèles de langage via l'apprentissage de représentation causale

Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning

papers.abstract

Support