Scoprire le Capacità Latenti Gerarchiche dei Modelli Linguistici attraverso l'Apprendimento di Rappresentazioni Causali

Abstract

Una valutazione accurata delle capacità dei modelli linguistici è cruciale per ottenere intuizioni operative che possano guidare lo sviluppo dei modelli. Tuttavia, valutazioni causali rigorose in questo ambito affrontano significative sfide metodologiche, tra cui complessi effetti di confondimento e costi computazionali proibitivi associati a estesi processi di riaddestramento. Per affrontare queste sfide, proponiamo un framework di apprendimento di rappresentazioni causali in cui le prestazioni osservate nei benchmark sono modellate come una trasformazione lineare di pochi fattori latenti di capacità. Fondamentalmente, questi fattori latenti sono identificati come causalmente interconnessi dopo aver opportunamente controllato il modello di base come un comune confonditore. Applicando questo approccio a un dataset completo che comprende oltre 1500 modelli valutati su sei benchmark del Open LLM Leaderboard, identifichiamo una struttura causale lineare composta da tre nodi che spiega in modo affidabile le variazioni di prestazione osservate. Un'ulteriore interpretazione di questa struttura causale fornisce sostanziali intuizioni scientifiche oltre le semplici classificazioni numeriche: in particolare, riveliamo una chiara direzione causale che parte dalle capacità generali di risoluzione dei problemi, progredisce attraverso la competenza nel seguire le istruzioni e culmina nell'abilità di ragionamento matematico. I nostri risultati sottolineano il ruolo essenziale di un attento controllo delle variazioni del modello di base durante la valutazione, un passaggio critico per scoprire con precisione le relazioni causali sottostanti tra le capacità latenti dei modelli.

English

Faithful evaluation of language model capabilities is crucial for deriving actionable insights that can inform model development. However, rigorous causal evaluations in this domain face significant methodological challenges, including complex confounding effects and prohibitive computational costs associated with extensive retraining. To tackle these challenges, we propose a causal representation learning framework wherein observed benchmark performance is modeled as a linear transformation of a few latent capability factors. Crucially, these latent factors are identified as causally interrelated after appropriately controlling for the base model as a common confounder. Applying this approach to a comprehensive dataset encompassing over 1500 models evaluated across six benchmarks from the Open LLM Leaderboard, we identify a concise three-node linear causal structure that reliably explains the observed performance variations. Further interpretation of this causal structure provides substantial scientific insights beyond simple numerical rankings: specifically, we reveal a clear causal direction starting from general problem-solving capabilities, advancing through instruction-following proficiency, and culminating in mathematical reasoning ability. Our results underscore the essential role of carefully controlling base model variations during evaluation, a step critical to accurately uncovering the underlying causal relationships among latent model capabilities.

Scoprire le Capacità Latenti Gerarchiche dei Modelli Linguistici attraverso l'Apprendimento di Rappresentazioni Causali

Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning

Abstract

Support