Descobrindo Capacidades Latentes Hierárquicas de Modelos de Linguagem por meio de Aprendizado de Representação Causal

Resumo

A avaliação fiel das capacidades dos modelos de linguagem é crucial para obter insights acionáveis que possam orientar o desenvolvimento dos modelos. No entanto, avaliações causais rigorosas nesse domínio enfrentam desafios metodológicos significativos, incluindo efeitos de confusão complexos e custos computacionais proibitivos associados a retreinamentos extensivos. Para enfrentar esses desafios, propomos uma estrutura de aprendizado de representação causal na qual o desempenho observado em benchmarks é modelado como uma transformação linear de alguns fatores latentes de capacidade. Crucialmente, esses fatores latentes são identificados como inter-relacionados causalmente após o controle adequado do modelo base como um confundidor comum. Aplicando essa abordagem a um conjunto de dados abrangente que engloba mais de 1500 modelos avaliados em seis benchmarks do Open LLM Leaderboard, identificamos uma estrutura causal linear concisa de três nós que explica de forma confiável as variações de desempenho observadas. A interpretação adicional dessa estrutura causal fornece insights científicos substanciais além de simples classificações numéricas: especificamente, revelamos uma direção causal clara que começa com capacidades gerais de resolução de problemas, avança através da proficiência em seguir instruções e culmina na habilidade de raciocínio matemático. Nossos resultados destacam o papel essencial de controlar cuidadosamente as variações do modelo base durante a avaliação, uma etapa crítica para descobrir com precisão as relações causais subjacentes entre as capacidades latentes dos modelos.

English

Faithful evaluation of language model capabilities is crucial for deriving actionable insights that can inform model development. However, rigorous causal evaluations in this domain face significant methodological challenges, including complex confounding effects and prohibitive computational costs associated with extensive retraining. To tackle these challenges, we propose a causal representation learning framework wherein observed benchmark performance is modeled as a linear transformation of a few latent capability factors. Crucially, these latent factors are identified as causally interrelated after appropriately controlling for the base model as a common confounder. Applying this approach to a comprehensive dataset encompassing over 1500 models evaluated across six benchmarks from the Open LLM Leaderboard, we identify a concise three-node linear causal structure that reliably explains the observed performance variations. Further interpretation of this causal structure provides substantial scientific insights beyond simple numerical rankings: specifically, we reveal a clear causal direction starting from general problem-solving capabilities, advancing through instruction-following proficiency, and culminating in mathematical reasoning ability. Our results underscore the essential role of carefully controlling base model variations during evaluation, a step critical to accurately uncovering the underlying causal relationships among latent model capabilities.

Descobrindo Capacidades Latentes Hierárquicas de Modelos de Linguagem por meio de Aprendizado de Representação Causal

Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning

Resumo

Support