Entschlüsselung der Generalisierung außerhalb der Verteilung in Transformern durch rekursives latentes Raumdenken
Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning
October 15, 2025
papers.authors: Awni Altabaa, Siyu Chen, John Lafferty, Zhuoran Yang
cs.AI
papers.abstract
Systematische, kompositionelle Generalisierung über die Trainingsverteilung hinaus bleibt eine zentrale Herausforderung im maschinellen Lernen – und ein kritischer Engpass für die emergenten Schlussfolgerungsfähigkeiten moderner Sprachmodelle. Diese Arbeit untersucht die Out-of-Distribution (OOD)-Generalisation in Transformer-Netzwerken mithilfe einer GSM8K-artigen modularen Arithmetik auf Rechengraphen als Testumgebung. Wir führen und erforschen eine Reihe von vier architektonischen Mechanismen, die darauf abzielen, die OOD-Generalisation zu verbessern: (i) eingabeadaptive Rekurrenz; (ii) algorithmische Supervision; (iii) verankerte latente Repräsentationen durch einen diskreten Engpass; und (iv) einen expliziten Fehlerkorrekturmechanismus. Zusammengenommen ergeben diese Mechanismen einen architektonischen Ansatz für natives und skalierbares latentes Raum-Schlussfolgern in Transformer-Netzwerken mit robusten algorithmischen Generalisationsfähigkeiten. Wir ergänzen diese empirischen Ergebnisse durch eine detaillierte mechanistische Interpretationsanalyse, die aufzeigt, wie diese Mechanismen robuste OOD-Generalisation ermöglichen.
English
Systematic, compositional generalization beyond the training distribution
remains a core challenge in machine learning -- and a critical bottleneck for
the emergent reasoning abilities of modern language models. This work
investigates out-of-distribution (OOD) generalization in Transformer networks
using a GSM8K-style modular arithmetic on computational graphs task as a
testbed. We introduce and explore a set of four architectural mechanisms aimed
at enhancing OOD generalization: (i) input-adaptive recurrence; (ii)
algorithmic supervision; (iii) anchored latent representations via a discrete
bottleneck; and (iv) an explicit error-correction mechanism. Collectively,
these mechanisms yield an architectural approach for native and scalable latent
space reasoning in Transformer networks with robust algorithmic generalization
capabilities. We complement these empirical results with a detailed mechanistic
interpretability analysis that reveals how these mechanisms give rise to robust
OOD generalization abilities.