Descubriendo Capacidades Latentes Jerárquicas en Modelos de Lenguaje mediante Aprendizaje de Representaciones Causales

Resumen

La evaluación fiel de las capacidades de los modelos de lenguaje es crucial para obtener insights accionables que puedan informar el desarrollo de los modelos. Sin embargo, las evaluaciones causales rigurosas en este dominio enfrentan desafíos metodológicos significativos, incluyendo efectos de confusión complejos y costos computacionales prohibitivos asociados con el reentrenamiento extensivo. Para abordar estos desafíos, proponemos un marco de aprendizaje de representaciones causales en el cual el rendimiento observado en los benchmarks se modela como una transformación lineal de unos pocos factores de capacidad latentes. Es crucial destacar que estos factores latentes se identifican como causalmente interrelacionados después de controlar adecuadamente el modelo base como un factor de confusión común. Al aplicar este enfoque a un conjunto de datos exhaustivo que abarca más de 1500 modelos evaluados en seis benchmarks del Open LLM Leaderboard, identificamos una estructura causal lineal concisa de tres nodos que explica de manera confiable las variaciones de rendimiento observadas. La interpretación adicional de esta estructura causal proporciona insights científicos sustanciales más allá de las simples clasificaciones numéricas: específicamente, revelamos una dirección causal clara que comienza con las capacidades generales de resolución de problemas, avanza a través de la competencia en el seguimiento de instrucciones y culmina en la habilidad de razonamiento matemático. Nuestros resultados subrayan el papel esencial de controlar cuidadosamente las variaciones del modelo base durante la evaluación, un paso crítico para descubrir con precisión las relaciones causales subyacentes entre las capacidades latentes de los modelos.

English

Faithful evaluation of language model capabilities is crucial for deriving actionable insights that can inform model development. However, rigorous causal evaluations in this domain face significant methodological challenges, including complex confounding effects and prohibitive computational costs associated with extensive retraining. To tackle these challenges, we propose a causal representation learning framework wherein observed benchmark performance is modeled as a linear transformation of a few latent capability factors. Crucially, these latent factors are identified as causally interrelated after appropriately controlling for the base model as a common confounder. Applying this approach to a comprehensive dataset encompassing over 1500 models evaluated across six benchmarks from the Open LLM Leaderboard, we identify a concise three-node linear causal structure that reliably explains the observed performance variations. Further interpretation of this causal structure provides substantial scientific insights beyond simple numerical rankings: specifically, we reveal a clear causal direction starting from general problem-solving capabilities, advancing through instruction-following proficiency, and culminating in mathematical reasoning ability. Our results underscore the essential role of carefully controlling base model variations during evaluation, a step critical to accurately uncovering the underlying causal relationships among latent model capabilities.

Descubriendo Capacidades Latentes Jerárquicas en Modelos de Lenguaje mediante Aprendizaje de Representaciones Causales

Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning

Resumen

Support