Entdeckung hierarchischer latenter Fähigkeiten von Sprachmodellen durch kausales Repräsentationslernen

papers.abstract

Eine zuverlässige Bewertung der Fähigkeiten von Sprachmodellen ist entscheidend, um umsetzbare Erkenntnisse zu gewinnen, die die Modellentwicklung informieren können. Allerdings stehen rigorose kausale Bewertungen in diesem Bereich vor erheblichen methodischen Herausforderungen, darunter komplexe Störfaktoren und prohibitive Rechenkosten, die mit umfangreichen Neuberechnungen verbunden sind. Um diese Herausforderungen zu bewältigen, schlagen wir ein kausales Repräsentationslernframework vor, bei dem die beobachtete Benchmark-Leistung als lineare Transformation einiger latenter Fähigkeitsfaktoren modelliert wird. Entscheidend ist, dass diese latenten Faktoren als kausal miteinander verbunden identifiziert werden, nachdem das Basismodell als gemeinsamer Störfaktor angemessen kontrolliert wurde. Durch die Anwendung dieses Ansatzes auf einen umfassenden Datensatz, der über 1500 Modelle umfasst, die über sechs Benchmarks des Open LLM Leaderboards bewertet wurden, identifizieren wir eine prägnante dreiknotige lineare Kausalstruktur, die die beobachteten Leistungsvariationen zuverlässig erklärt. Die weitere Interpretation dieser Kausalstruktur liefert erhebliche wissenschaftliche Erkenntnisse, die über einfache numerische Rangfolgen hinausgehen: Insbesondere zeigen wir eine klare kausale Richtung auf, die von allgemeinen Problemlösungsfähigkeiten ausgeht, über die Fähigkeit zur Befolgung von Anweisungen fortschreitet und in mathematischem Denkvermögen gipfelt. Unsere Ergebnisse unterstreichen die wesentliche Rolle der sorgfältigen Kontrolle von Basismodellvariationen während der Bewertung, ein Schritt, der entscheidend ist, um die zugrunde liegenden kausalen Beziehungen zwischen den latenten Modellfähigkeiten genau aufzudecken.

English

Faithful evaluation of language model capabilities is crucial for deriving actionable insights that can inform model development. However, rigorous causal evaluations in this domain face significant methodological challenges, including complex confounding effects and prohibitive computational costs associated with extensive retraining. To tackle these challenges, we propose a causal representation learning framework wherein observed benchmark performance is modeled as a linear transformation of a few latent capability factors. Crucially, these latent factors are identified as causally interrelated after appropriately controlling for the base model as a common confounder. Applying this approach to a comprehensive dataset encompassing over 1500 models evaluated across six benchmarks from the Open LLM Leaderboard, we identify a concise three-node linear causal structure that reliably explains the observed performance variations. Further interpretation of this causal structure provides substantial scientific insights beyond simple numerical rankings: specifically, we reveal a clear causal direction starting from general problem-solving capabilities, advancing through instruction-following proficiency, and culminating in mathematical reasoning ability. Our results underscore the essential role of carefully controlling base model variations during evaluation, a step critical to accurately uncovering the underlying causal relationships among latent model capabilities.

Entdeckung hierarchischer latenter Fähigkeiten von Sprachmodellen durch kausales Repräsentationslernen

Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning

papers.abstract

Support