Löse die Schleife: Attraktormodelle für Sprache und Reasoning

Zusammenfassung

Schleifen-Transformer bieten eine vielversprechende Alternative zur rein vorwärtsgerichteten Berechnung, indem sie latente Repräsentationen iterativ verfeinern und so Sprachmodellierung und logisches Denken verbessern. Dennoch bleiben rekurrente Architekturen instabil im Training, teuer in Optimierung und Einsatz und auf kleine, feste Rekursionstiefen beschränkt. Wir führen Attraktormodelle ein, bei denen ein Basis-Modul zunächst Ausgabe-Embeddings vorschlägt, die dann von einem Attraktor-Modul durch Lösen nach dem Fixpunkt verfeinert werden, wobei Gradienten durch implizite Differentiation gewonnen werden. Dadurch bleibt der Trainingsspeicher in Bezug auf die effektive Tiefe konstant, und die Iterationen werden adaptiv durch Konvergenz gewählt. Empirisch übertreffen Attraktormodelle bestehende Modelle in zwei Bereichen: groß angelegtes Sprachmodell-Pre-Training und logisches Denken mit winzigen Modellen. In der Sprachmodellierung erzielen Attraktormodelle eine Pareto-Verbesserung gegenüber Standard-Transformern und stabilen geschleiften Modellen verschiedener Größen und verbessern die Perplexität um bis zu 46,6 % und die Genauigkeit bei nachgelagerten Aufgaben um bis zu 19,7 %, während die Trainingskosten sinken. Bemerkenswerterweise übertrifft ein 770-Millionen-Attraktormodell einen 1,3-Milliarden-Transformer, der mit doppelt so vielen Tokens trainiert wurde. Bei anspruchsvollen Denkaufgaben zeigen wir, dass unser Modell mit nur 27 Millionen Parametern und etwa tausend Beispielen eine Genauigkeit von 91,4 % bei Sudoku-Extreme und 93,1 % bei Maze-Hard erreicht und dabei vorteilhaft skaliert, wo führende Modelle wie Claude und GPT o3 völlig scheitern und spezialisierte rekursive Schlussfolgerer bei größeren Größen zusammenbrechen. Schließlich zeigen wir, dass Attraktormodelle ein neuartiges Phänomen aufweisen, das wir Gleichgewichtsinternalisierung nennen: Fixpunkttraining platziert die anfängliche Ausgabe-Embedding des Modells nahe dem Gleichgewicht, sodass der Löser zur Inferenzzeit mit geringer Verschlechterung entfernt werden kann. Zusammengenommen deuten diese Ergebnisse darauf hin, dass Attraktormodelle iterative Verfeinerung skalierbar machen, indem sie Rekurrenz in eine Berechnung verwandeln, die das Modell zu internalisieren lernt.

English

Looped Transformers offer a promising alternative to purely feed-forward computation by iteratively refining latent representations, improving language modeling and reasoning. Yet recurrent architectures remain unstable to train, costly to optimize and deploy, and constrained to small, fixed recurrence depths. We introduce Attractor Models, in which a backbone module first proposes output embeddings, then an attractor module refines them by solving for the fixed point, with gradients obtained through implicit differentiation. Thus, training memory remains constant in effective depth, and iterations are chosen adaptively by convergence. Empirically, Attractor Models outperform existing models across two regimes, large-scale language-model pretraining and reasoning with tiny models. In language modeling, Attractor Models deliver a Pareto improvement over standard Transformers and stable looped models across sizes, improving perplexity by up to 46.6% and downstream accuracy by up to 19.7% while reducing training cost. Notably, a 770M Attractor Model outperforms a 1.3B Transformer trained on twice as many tokens. On challenging reasoning tasks, we show that our model with only 27M parameters and approximately 1000 examples achieves 91.4% accuracy on Sudoku-Extreme and 93.1% on Maze-Hard, scaling favorably where frontier models like Claude and GPT o3, fail completely, and specialized recursive reasoners collapse at larger sizes. Lastly, we show that Attractor Models exhibit a novel phenomenon, which we call equilibrium internalization: fixed-point training places the model's initial output embedding near equilibrium, allowing the solver to be removed at inference time with little degradation. Together, these results suggest that Attractor Models make iterative refinement scalable by turning recurrence into a computation the model can learn to internalize.

Löse die Schleife: Attraktormodelle für Sprache und Reasoning

Solve the Loop: Attractor Models for Language and Reasoning

Zusammenfassung

Support