ChatPaper.aiChatPaper

平衡推論器:アトラクターの学習によるスケーラブルな推論の実現

Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning

May 20, 2026
著者: Benhao Huang, Zhengyang Geng, Zico Kolter
cs.AI

要旨

潜在状態を反復的に更新することでテスト時計算をスケーリングすることは、推論のための強力なパラダイムとして登場している。しかし、これらの反復モデルが記憶されたパターンを超えて汎化することを可能にする内部メカニズムは依然として不明である。我々は、汎化可能な推論はタスク条件付きアトラクタ(安定な不動点が有効な解に対応する潜在力学系)を学習することから生じると仮定する。 我々はこのプロセスをEquilibrium Reasoners (EqR) を通じて形式化する。EqRは外部検証器やタスク固有の事前知識なしでテスト時スケーリングを可能にする。EqRは内部ダイナミクスを二つの軸でスケーリングする:深さ(より多くの反復を実行する)と幅(複数の初期化からの確率的軌跡を集約する)。経験的に、テスト時スケーリングによる利得は、解に整合したアトラクタへのより強い収束と密接に関連している。 このアトラクタの視点により、ニューラルネットワークはタスクの難易度に基づいてテスト時計算を適応的に割り当てることができる。簡単なケースは1~5反復ステップで収束する一方、より難しいケースは大規模なテスト時スケーリングから利益を得る。最大40,000層に相当する展開により、スケーラブルな潜在推論はフィードフォワードモデルの2.6%からSudoku-Extremeで99%超へと精度を向上させる。 これらの結果は、学習されたアトラクタランドスケープが反復潜在モデルにおけるスケーラブルな推論を理解するための有用なメカニズム的レンズを提供することを示唆している。
English
Scaling test-time compute by iteratively updating a latent state has emerged as a powerful paradigm for reasoning. Yet the internal mechanisms that enable these iterative models to generalize beyond memorized patterns remain unclear. We hypothesize that generalizable reasoning arises from learning task-conditioned attractors: latent dynamical systems whose stable fixed points correspond to valid solutions. We formalize this process through Equilibrium Reasoners (EqR), which enable test-time scaling without external verifiers or task-specific priors. EqR scales internal dynamics along two axes: depth, by running more iterations, and breadth, by aggregating stochastic trajectories from multiple initializations. Empirically, gains from test-time scaling are tightly coupled with stronger convergence toward solution-aligned attractors. This attractor perspective allows neural networks to adaptively allocate test-time compute based on task difficulty. While simple cases converge within 1 to 5 iteration steps, harder cases benefit from massive test-time scaling. By unrolling up to the equivalent of 40,000 layers, scalable latent reasoning boosts accuracy from 2.6% for feedforward models to over 99% on Sudoku-Extreme. These results suggest that learned attractor landscapes provide a useful mechanistic lens for understanding scalable reasoning in iterative latent models.