Обнаружение иерархических скрытых возможностей языковых моделей с помощью обучения причинным представлениям
Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning
June 12, 2025
Авторы: Jikai Jin, Vasilis Syrgkanis, Sham Kakade, Hanlin Zhang
cs.AI
Аннотация
Точная оценка возможностей языковых моделей крайне важна для получения практических выводов, которые могут направлять разработку моделей. Однако строгие причинно-следственные оценки в этой области сталкиваются с серьезными методологическими трудностями, включая сложные эффекты смешения и непомерные вычислительные затраты, связанные с масштабным переобучением. Для решения этих проблем мы предлагаем фреймворк причинного обучения представлений, в котором наблюдаемая производительность на бенчмарках моделируется как линейное преобразование нескольких латентных факторов способностей. Ключевым моментом является то, что эти латентные факторы идентифицируются как причинно взаимосвязанные после надлежащего учета базовой модели как общего смешивающего фактора. Применяя этот подход к обширному набору данных, охватывающему более 1500 моделей, оцененных на шести бенчмарках из Open LLM Leaderboard, мы выявляем компактную трехузловую линейную причинную структуру, которая надежно объясняет наблюдаемые вариации производительности. Дальнейшая интерпретация этой причинной структуры предоставляет значительные научные инсайты, выходящие за рамки простых численных рейтингов: в частности, мы обнаруживаем четкую причинную направленность, начинающуюся с общих способностей к решению задач, переходящую к мастерству следования инструкциям и завершающуюся способностью к математическому рассуждению. Наши результаты подчеркивают важность тщательного контроля вариаций базовой модели в процессе оценки, что является критическим шагом для точного выявления скрытых причинно-следственных связей между латентными способностями моделей.
English
Faithful evaluation of language model capabilities is crucial for deriving
actionable insights that can inform model development. However, rigorous causal
evaluations in this domain face significant methodological challenges,
including complex confounding effects and prohibitive computational costs
associated with extensive retraining. To tackle these challenges, we propose a
causal representation learning framework wherein observed benchmark performance
is modeled as a linear transformation of a few latent capability factors.
Crucially, these latent factors are identified as causally interrelated after
appropriately controlling for the base model as a common confounder. Applying
this approach to a comprehensive dataset encompassing over 1500 models
evaluated across six benchmarks from the Open LLM Leaderboard, we identify a
concise three-node linear causal structure that reliably explains the observed
performance variations. Further interpretation of this causal structure
provides substantial scientific insights beyond simple numerical rankings:
specifically, we reveal a clear causal direction starting from general
problem-solving capabilities, advancing through instruction-following
proficiency, and culminating in mathematical reasoning ability. Our results
underscore the essential role of carefully controlling base model variations
during evaluation, a step critical to accurately uncovering the underlying
causal relationships among latent model capabilities.