Gleichgewichts-Reasoner: Das Lernen von Attraktoren ermöglicht skalierbares Schlussfolgern

Zusammenfassung

Die Skalierung der Testzeitberechnung durch iterative Aktualisierung eines latenten Zustands hat sich als leistungsfähiges Paradigma für das Schlussfolgern erwiesen. Dennoch bleiben die internen Mechanismen, die es diesen iterativen Modellen ermöglichen, über auswendig gelernte Muster hinaus zu generalisieren, unklar. Wir stellen die Hypothese auf, dass verallgemeinerbares Schlussfolgern aus dem Erlernen aufgabenbedingter Attraktoren entsteht: latente dynamische Systeme, deren stabile Fixpunkte gültigen Lösungen entsprechen. Wir formalisieren diesen Prozess durch Equilibrium Reasoners (EqR), die eine Testzeitskalierung ohne externe Verifizierer oder aufgabenspezifische Priors ermöglichen. EqR skaliert die interne Dynamik entlang zweier Achsen: Tiefe, durch Ausführen weiterer Iterationen, und Breite, durch Aggregation stochastischer Trajektorien aus mehreren Initialisierungen. Empirisch sind die Gewinne aus der Testzeitskalierung eng mit einer stärkeren Konvergenz zu lösungsorientierten Attraktoren verbunden. Diese Attraktorperspektive ermöglicht es neuronalen Netzen, Testzeitberechnung basierend auf der Aufgabenschwierigkeit adaptiv zuzuteilen. Während einfache Fälle innerhalb von 1 bis 5 Iterationsschritten konvergieren, profitieren schwierigere Fälle von massiver Testzeitskalierung. Durch das Aufrollen bis zu einem Äquivalent von 40.000 Schichten steigert skalierbares latentes Schlussfolgern die Genauigkeit von 2,6 % bei Feedforward-Modellen auf über 99 % bei Sudoku-Extreme. Diese Ergebnisse legen nahe, dass gelernte Attraktorlandschaften eine nützliche mechanistische Linse zum Verständnis skalierbaren Schlussfolgerns in iterativen latenten Modellen bieten.

English

Scaling test-time compute by iteratively updating a latent state has emerged as a powerful paradigm for reasoning. Yet the internal mechanisms that enable these iterative models to generalize beyond memorized patterns remain unclear. We hypothesize that generalizable reasoning arises from learning task-conditioned attractors: latent dynamical systems whose stable fixed points correspond to valid solutions. We formalize this process through Equilibrium Reasoners (EqR), which enable test-time scaling without external verifiers or task-specific priors. EqR scales internal dynamics along two axes: depth, by running more iterations, and breadth, by aggregating stochastic trajectories from multiple initializations. Empirically, gains from test-time scaling are tightly coupled with stronger convergence toward solution-aligned attractors. This attractor perspective allows neural networks to adaptively allocate test-time compute based on task difficulty. While simple cases converge within 1 to 5 iteration steps, harder cases benefit from massive test-time scaling. By unrolling up to the equivalent of 40,000 layers, scalable latent reasoning boosts accuracy from 2.6% for feedforward models to over 99% on Sudoku-Extreme. These results suggest that learned attractor landscapes provide a useful mechanistic lens for understanding scalable reasoning in iterative latent models.