Evenwichtsredeneerders: Het Leren van Attractoren Maakt Schaalbare Redenering Mogelijk

Samenvatting

Het schalen van rekenkracht tijdens testtijd door iteratief bijwerken van een latente toestand is uitgegroeid tot een krachtig paradigma voor redeneren. Toch blijven de interne mechanismen die deze iteratieve modellen in staat stellen te generaliseren voorbij aangeleerde patronen onduidelijk. We hypothetiseren dat generaliseerbaar redeneren voortkomt uit het leren van taakgeconditioneerde attractoren: latente dynamische systemen waarvan de stabiele vaste punten overeenkomen met geldige oplossingen. We formaliseren dit proces via Evenwichtsredeneraars (EqR), die schaling tijdens testtijd mogelijk maken zonder externe verificateurs of taakspecifieke priori's. EqR schaalt interne dynamiek langs twee assen: diepte, door meer iteraties uit te voeren, en breedte, door stochastische trajecten uit meerdere initialisaties te aggregeren. Empirisch gezien zijn de winsten van testtijd-schaling nauw gekoppeld aan sterkere convergentie naar oplossingsgeoriënteerde attractoren. Dit attractorperspectief stelt neurale netwerken in staat om rekenkracht tijdens testtijd adaptief toe te wijzen op basis van taakmoeilijkheid. Terwijl eenvoudige gevallen binnen 1 tot 5 iteratiestappen convergeren, profiteren moeilijkere gevallen van massieve testtijd-schaling. Door uit te rollen tot het equivalent van 40.000 lagen, verhoogt schaalbare latente redenering de nauwkeurigheid van 2,6% voor feedforward-modellen tot meer dan 99% op Sudoku-Extreme. Deze resultaten suggereren dat aangeleerde attractorlandschappen een nuttige mechanistische lens bieden voor het begrijpen van schaalbaar redeneren in iteratieve latente modellen.

English

Scaling test-time compute by iteratively updating a latent state has emerged as a powerful paradigm for reasoning. Yet the internal mechanisms that enable these iterative models to generalize beyond memorized patterns remain unclear. We hypothesize that generalizable reasoning arises from learning task-conditioned attractors: latent dynamical systems whose stable fixed points correspond to valid solutions. We formalize this process through Equilibrium Reasoners (EqR), which enable test-time scaling without external verifiers or task-specific priors. EqR scales internal dynamics along two axes: depth, by running more iterations, and breadth, by aggregating stochastic trajectories from multiple initializations. Empirically, gains from test-time scaling are tightly coupled with stronger convergence toward solution-aligned attractors. This attractor perspective allows neural networks to adaptively allocate test-time compute based on task difficulty. While simple cases converge within 1 to 5 iteration steps, harder cases benefit from massive test-time scaling. By unrolling up to the equivalent of 40,000 layers, scalable latent reasoning boosts accuracy from 2.6% for feedforward models to over 99% on Sudoku-Extreme. These results suggest that learned attractor landscapes provide a useful mechanistic lens for understanding scalable reasoning in iterative latent models.