Raciocinadores de Equilíbrio: Aprendendo Atratores Possibilita Raciocínio Escalável

Resumo

O escalonamento da computação em tempo de teste por meio da atualização iterativa de um estado latente emergiu como um poderoso paradigma para o raciocínio. No entanto, os mecanismos internos que permitem que esses modelos iterativos generalizem além dos padrões memorizados permanecem obscuros. Nossa hipótese é que o raciocínio generalizável surge do aprendizado de atratores condicionados à tarefa: sistemas dinâmicos latentes cujos pontos fixos estáveis correspondem a soluções válidas. Formalizamos esse processo por meio dos Raciocinadores de Equilíbrio (EqR), que possibilitam o escalonamento em tempo de teste sem verificadores externos ou priores específicos da tarefa. O EqR escala a dinâmica interna ao longo de dois eixos: profundidade, executando mais iterações, e amplitude, agregando trajetórias estocásticas a partir de múltiplas inicializações. Empiricamente, os ganhos do escalonamento em tempo de teste estão fortemente acoplados a uma convergência mais forte em direção a atratores alinhados com as soluções. Essa perspectiva de atratores permite que redes neurais aloquem adaptativamente a computação em tempo de teste com base na dificuldade da tarefa. Enquanto casos simples convergem dentro de 1 a 5 passos de iteração, casos mais difíceis se beneficiam de um escalonamento massivo em tempo de teste. Ao desdobrar até o equivalente a 40.000 camadas, o raciocínio latente escalável eleva a precisão de 2,6% para modelos feedforward para mais de 99% no Sudoku-Extreme. Esses resultados sugerem que paisagens de atratores aprendidas fornecem uma lente mecanicista útil para compreender o raciocínio escalável em modelos latentes iterativos.

English

Scaling test-time compute by iteratively updating a latent state has emerged as a powerful paradigm for reasoning. Yet the internal mechanisms that enable these iterative models to generalize beyond memorized patterns remain unclear. We hypothesize that generalizable reasoning arises from learning task-conditioned attractors: latent dynamical systems whose stable fixed points correspond to valid solutions. We formalize this process through Equilibrium Reasoners (EqR), which enable test-time scaling without external verifiers or task-specific priors. EqR scales internal dynamics along two axes: depth, by running more iterations, and breadth, by aggregating stochastic trajectories from multiple initializations. Empirically, gains from test-time scaling are tightly coupled with stronger convergence toward solution-aligned attractors. This attractor perspective allows neural networks to adaptively allocate test-time compute based on task difficulty. While simple cases converge within 1 to 5 iteration steps, harder cases benefit from massive test-time scaling. By unrolling up to the equivalent of 40,000 layers, scalable latent reasoning boosts accuracy from 2.6% for feedforward models to over 99% on Sudoku-Extreme. These results suggest that learned attractor landscapes provide a useful mechanistic lens for understanding scalable reasoning in iterative latent models.