Scoprire le Capacità Latenti Gerarchiche dei Modelli Linguistici attraverso l'Apprendimento di Rappresentazioni Causali
Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning
June 12, 2025
Autori: Jikai Jin, Vasilis Syrgkanis, Sham Kakade, Hanlin Zhang
cs.AI
Abstract
Una valutazione accurata delle capacità dei modelli linguistici è cruciale per ottenere intuizioni operative che possano guidare lo sviluppo dei modelli. Tuttavia, valutazioni causali rigorose in questo ambito affrontano significative sfide metodologiche, tra cui complessi effetti di confondimento e costi computazionali proibitivi associati a estesi processi di riaddestramento. Per affrontare queste sfide, proponiamo un framework di apprendimento di rappresentazioni causali in cui le prestazioni osservate nei benchmark sono modellate come una trasformazione lineare di pochi fattori latenti di capacità. Fondamentalmente, questi fattori latenti sono identificati come causalmente interconnessi dopo aver opportunamente controllato il modello di base come un comune confonditore. Applicando questo approccio a un dataset completo che comprende oltre 1500 modelli valutati su sei benchmark del Open LLM Leaderboard, identifichiamo una struttura causale lineare composta da tre nodi che spiega in modo affidabile le variazioni di prestazione osservate. Un'ulteriore interpretazione di questa struttura causale fornisce sostanziali intuizioni scientifiche oltre le semplici classificazioni numeriche: in particolare, riveliamo una chiara direzione causale che parte dalle capacità generali di risoluzione dei problemi, progredisce attraverso la competenza nel seguire le istruzioni e culmina nell'abilità di ragionamento matematico. I nostri risultati sottolineano il ruolo essenziale di un attento controllo delle variazioni del modello di base durante la valutazione, un passaggio critico per scoprire con precisione le relazioni causali sottostanti tra le capacità latenti dei modelli.
English
Faithful evaluation of language model capabilities is crucial for deriving
actionable insights that can inform model development. However, rigorous causal
evaluations in this domain face significant methodological challenges,
including complex confounding effects and prohibitive computational costs
associated with extensive retraining. To tackle these challenges, we propose a
causal representation learning framework wherein observed benchmark performance
is modeled as a linear transformation of a few latent capability factors.
Crucially, these latent factors are identified as causally interrelated after
appropriately controlling for the base model as a common confounder. Applying
this approach to a comprehensive dataset encompassing over 1500 models
evaluated across six benchmarks from the Open LLM Leaderboard, we identify a
concise three-node linear causal structure that reliably explains the observed
performance variations. Further interpretation of this causal structure
provides substantial scientific insights beyond simple numerical rankings:
specifically, we reveal a clear causal direction starting from general
problem-solving capabilities, advancing through instruction-following
proficiency, and culminating in mathematical reasoning ability. Our results
underscore the essential role of carefully controlling base model variations
during evaluation, a step critical to accurately uncovering the underlying
causal relationships among latent model capabilities.