Raisonneurs d'Équilibre : L'apprentissage d'attracteurs permet un raisonnement à grande échelle

Résumé

La mise à l'échelle du calcul en phase de test par mise à jour itérative d'un état latent est devenue un paradigme puissant pour le raisonnement. Pourtant, les mécanismes internes qui permettent à ces modèles itératifs de généraliser au-delà de motifs mémorisés restent flous. Nous émettons l'hypothèse qu'un raisonnement généralisable émerge de l'apprentissage d'attracteurs conditionnés par la tâche : des systèmes dynamiques latents dont les points fixes stables correspondent à des solutions valides. Nous formalisons ce processus à travers les Raisonneurs d'Équilibre (EqR), qui permettent une mise à l'échelle au moment du test sans vérificateur externe ni a priori spécifique à la tâche. Les EqR dimensionnent la dynamique interne selon deux axes : la profondeur, en augmentant le nombre d'itérations, et la largeur, en agrégeant des trajectoires stochastiques issues de multiples initialisations. Empiriquement, les gains de la mise à l'échelle au moment du test sont étroitement liés à une convergence renforcée vers des attracteurs alignés sur la solution. Cette perspective d'attracteurs permet aux réseaux de neurones d'allouer de manière adaptative le calcul en phase de test en fonction de la difficulté de la tâche. Alors que les cas simples convergent en 1 à 5 itérations, les cas plus difficiles bénéficient d'une mise à l'échelle massive du calcul au moment du test. En déroulant jusqu'à l'équivalent de 40 000 couches, le raisonnement latent scalable améliore la précision de 2,6 % pour les modèles feedforward à plus de 99 % sur Sudoku-Extreme. Ces résultats suggèrent que les paysages d'attracteurs appris offrent une lentille mécaniste utile pour comprendre le raisonnement scalable dans les modèles latents itératifs.

English

Scaling test-time compute by iteratively updating a latent state has emerged as a powerful paradigm for reasoning. Yet the internal mechanisms that enable these iterative models to generalize beyond memorized patterns remain unclear. We hypothesize that generalizable reasoning arises from learning task-conditioned attractors: latent dynamical systems whose stable fixed points correspond to valid solutions. We formalize this process through Equilibrium Reasoners (EqR), which enable test-time scaling without external verifiers or task-specific priors. EqR scales internal dynamics along two axes: depth, by running more iterations, and breadth, by aggregating stochastic trajectories from multiple initializations. Empirically, gains from test-time scaling are tightly coupled with stronger convergence toward solution-aligned attractors. This attractor perspective allows neural networks to adaptively allocate test-time compute based on task difficulty. While simple cases converge within 1 to 5 iteration steps, harder cases benefit from massive test-time scaling. By unrolling up to the equivalent of 40,000 layers, scalable latent reasoning boosts accuracy from 2.6% for feedforward models to over 99% on Sudoku-Extreme. These results suggest that learned attractor landscapes provide a useful mechanistic lens for understanding scalable reasoning in iterative latent models.