Descubriendo Capacidades Latentes Jerárquicas en Modelos de Lenguaje mediante Aprendizaje de Representaciones Causales
Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning
June 12, 2025
Autores: Jikai Jin, Vasilis Syrgkanis, Sham Kakade, Hanlin Zhang
cs.AI
Resumen
La evaluación fiel de las capacidades de los modelos de lenguaje es crucial para obtener insights accionables que puedan informar el desarrollo de los modelos. Sin embargo, las evaluaciones causales rigurosas en este dominio enfrentan desafíos metodológicos significativos, incluyendo efectos de confusión complejos y costos computacionales prohibitivos asociados con el reentrenamiento extensivo. Para abordar estos desafíos, proponemos un marco de aprendizaje de representaciones causales en el cual el rendimiento observado en los benchmarks se modela como una transformación lineal de unos pocos factores de capacidad latentes. Es crucial destacar que estos factores latentes se identifican como causalmente interrelacionados después de controlar adecuadamente el modelo base como un factor de confusión común. Al aplicar este enfoque a un conjunto de datos exhaustivo que abarca más de 1500 modelos evaluados en seis benchmarks del Open LLM Leaderboard, identificamos una estructura causal lineal concisa de tres nodos que explica de manera confiable las variaciones de rendimiento observadas. La interpretación adicional de esta estructura causal proporciona insights científicos sustanciales más allá de las simples clasificaciones numéricas: específicamente, revelamos una dirección causal clara que comienza con las capacidades generales de resolución de problemas, avanza a través de la competencia en el seguimiento de instrucciones y culmina en la habilidad de razonamiento matemático. Nuestros resultados subrayan el papel esencial de controlar cuidadosamente las variaciones del modelo base durante la evaluación, un paso crítico para descubrir con precisión las relaciones causales subyacentes entre las capacidades latentes de los modelos.
English
Faithful evaluation of language model capabilities is crucial for deriving
actionable insights that can inform model development. However, rigorous causal
evaluations in this domain face significant methodological challenges,
including complex confounding effects and prohibitive computational costs
associated with extensive retraining. To tackle these challenges, we propose a
causal representation learning framework wherein observed benchmark performance
is modeled as a linear transformation of a few latent capability factors.
Crucially, these latent factors are identified as causally interrelated after
appropriately controlling for the base model as a common confounder. Applying
this approach to a comprehensive dataset encompassing over 1500 models
evaluated across six benchmarks from the Open LLM Leaderboard, we identify a
concise three-node linear causal structure that reliably explains the observed
performance variations. Further interpretation of this causal structure
provides substantial scientific insights beyond simple numerical rankings:
specifically, we reveal a clear causal direction starting from general
problem-solving capabilities, advancing through instruction-following
proficiency, and culminating in mathematical reasoning ability. Our results
underscore the essential role of carefully controlling base model variations
during evaluation, a step critical to accurately uncovering the underlying
causal relationships among latent model capabilities.