Равновесные рассуждатели: обучение аттракторов обеспечивает масштабируемое рассуждение

Аннотация

Масштабирование вычислений во время тестирования за счет итеративного обновления скрытого состояния стало мощной парадигмой для рассуждения. Тем не менее внутренние механизмы, позволяющие таким итеративным моделям обобщать за пределы запомненных паттернов, остаются неясными. Мы выдвигаем гипотезу, что обобщаемое рассуждение возникает из обучения обусловленным задачей аттракторам: скрытым динамическим системам, чьи устойчивые неподвижные точки соответствуют допустимым решениям. Мы формализуем этот процесс через Равновесные Резонеры (Equilibrium Reasoners, EqR), которые обеспечивают масштабирование на этапе тестирования без внешних верификаторов или специфичных для задачи априорных знаний. EqR масштабирует внутреннюю динамику по двум осям: глубине, путем выполнения большего числа итераций, и широте, путем агрегирования стохастических траекторий из нескольких начальных состояний. Эмпирически, прирост от масштабирования вычислений во время тестирования тесно связан с более сильной сходимостью к аттракторам, согласованным с решением. Эта перспектива аттракторов позволяет нейронным сетям адаптивно распределять вычислительные ресурсы во время тестирования в зависимости от сложности задачи. В то время как простые случаи сходятся за 1–5 шагов итерации, более сложные случаи выигрывают от значительного масштабирования вычислений. Разворачивая до эквивалента 40 000 слоев, масштабируемое скрытое рассуждение повышает точность с 2,6% для моделей прямого распространения до более чем 99% на наборе данных Sudoku-Extreme. Эти результаты свидетельствуют о том, что изученные ландшафты аттракторов служат полезной механистической оптикой для понимания масштабируемого рассуждения в итеративных скрытых моделях.

English

Scaling test-time compute by iteratively updating a latent state has emerged as a powerful paradigm for reasoning. Yet the internal mechanisms that enable these iterative models to generalize beyond memorized patterns remain unclear. We hypothesize that generalizable reasoning arises from learning task-conditioned attractors: latent dynamical systems whose stable fixed points correspond to valid solutions. We formalize this process through Equilibrium Reasoners (EqR), which enable test-time scaling without external verifiers or task-specific priors. EqR scales internal dynamics along two axes: depth, by running more iterations, and breadth, by aggregating stochastic trajectories from multiple initializations. Empirically, gains from test-time scaling are tightly coupled with stronger convergence toward solution-aligned attractors. This attractor perspective allows neural networks to adaptively allocate test-time compute based on task difficulty. While simple cases converge within 1 to 5 iteration steps, harder cases benefit from massive test-time scaling. By unrolling up to the equivalent of 40,000 layers, scalable latent reasoning boosts accuracy from 2.6% for feedforward models to over 99% on Sudoku-Extreme. These results suggest that learned attractor landscapes provide a useful mechanistic lens for understanding scalable reasoning in iterative latent models.