Razonadores de Equilibrio: El Aprendizaje de Atractores Permite el Razonamiento Escalable

Resumen

Escalar el cómputo en tiempo de prueba mediante la actualización iterativa de un estado latente se ha convertido en un paradigma poderoso para el razonamiento. Sin embargo, los mecanismos internos que permiten a estos modelos iterativos generalizar más allá de patrones memorizados siguen sin estar claros. Planteamos la hipótesis de que el razonamiento generalizable surge del aprendizaje de atractores condicionados por la tarea: sistemas dinámicos latentes cuyos puntos fijos estables corresponden a soluciones válidas. Formalizamos este proceso mediante Razonadores de Equilibrio (EqR), que permiten el escalado en tiempo de prueba sin verificadores externos ni conocimientos previos específicos de la tarea. EqR escala la dinámica interna a lo largo de dos ejes: profundidad, ejecutando más iteraciones, y amplitud, agregando trayectorias estocásticas de múltiples inicializaciones. Empíricamente, las ganancias del escalado en tiempo de prueba están estrechamente vinculadas con una convergencia más fuerte hacia atractores alineados con las soluciones. Esta perspectiva de atractor permite a las redes neuronales asignar adaptativamente el cómputo en tiempo de prueba según la dificultad de la tarea. Mientras que los casos simples convergen en 1 a 5 pasos de iteración, los casos más difíciles se benefician de un escalado masivo en tiempo de prueba. Al desenrollar hasta el equivalente de 40 000 capas, el razonamiento latente escalable mejora la precisión desde un 2.6 % en modelos feedforward hasta más del 99 % en Sudoku Extremo. Estos resultados sugieren que los paisajes de atractor aprendidos proporcionan un lente mecanicista útil para comprender el razonamiento escalable en modelos latentes iterativos.

English

Scaling test-time compute by iteratively updating a latent state has emerged as a powerful paradigm for reasoning. Yet the internal mechanisms that enable these iterative models to generalize beyond memorized patterns remain unclear. We hypothesize that generalizable reasoning arises from learning task-conditioned attractors: latent dynamical systems whose stable fixed points correspond to valid solutions. We formalize this process through Equilibrium Reasoners (EqR), which enable test-time scaling without external verifiers or task-specific priors. EqR scales internal dynamics along two axes: depth, by running more iterations, and breadth, by aggregating stochastic trajectories from multiple initializations. Empirically, gains from test-time scaling are tightly coupled with stronger convergence toward solution-aligned attractors. This attractor perspective allows neural networks to adaptively allocate test-time compute based on task difficulty. While simple cases converge within 1 to 5 iteration steps, harder cases benefit from massive test-time scaling. By unrolling up to the equivalent of 40,000 layers, scalable latent reasoning boosts accuracy from 2.6% for feedforward models to over 99% on Sudoku-Extreme. These results suggest that learned attractor landscapes provide a useful mechanistic lens for understanding scalable reasoning in iterative latent models.