逐次的エッジ:逆エントロピー投票は、同等の計算量で並列的自己一貫性を凌駕する
The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute
November 4, 2025
著者: Aman Sharma, Paras Chopra
cs.AI
要旨
言語モデルの推論におけるテストタイムスケーリングを再検討し、基本的な疑問を提起する:同じトークン予算と計算資源において、複数の独立したチェーンを並列実行するのと、反復的な洗練化を逐次ステップで行う少数のチェーンを実行するのでは、どちらが優れているか?5つの最先端オープンソースモデルと3つの難易度の高い推論ベンチマークを用いた包括的評価を通じて、チェーンが明示的に以前の試行を基に構築する逐次スケーリングが、支配的な並列自己一貫性パラダイムを95.6%の設定で一貫して上回り、最大46.7%の精度向上をもたらすことを明らかにした。さらに、逆エントロピー重み付き投票という新しいトレーニング不要手法を導入し、逐次スケーリングの精度をさらに向上させる。推論チェーンのエントロピー逆数に比例して回答に重み付けを行うことで、並列多数決を上回る成功率を達成し、これが最適なテストタイムスケーリング戦略であることを立証した。本知見は、Wangらによる自己一貫性デコーディング(Wang et al., 2022)以来テストタイムスケーリングを支配してきた並列推論の常識に根本的な疑問を投げかけ、逐次的洗練化を現代LLM推論の堅牢なデフォルト手法として位置づけ、推論時最適化のアプローチにおけるパラダイムシフトの必要性を示唆する。
English
We revisit test-time scaling for language model reasoning and ask a
fundamental question: at equal token budget and compute, is it better to run
multiple independent chains in parallel, or to run fewer chains that
iteratively refine through sequential steps? Through comprehensive evaluation
across 5 state-of-the-art open source models and 3 challenging reasoning
benchmarks, we find that sequential scaling where chains explicitly build upon
previous attempts consistently outperforms the dominant parallel
self-consistency paradigm in 95.6% of configurations with gains in accuracy
upto 46.7%. Further, we introduce inverse-entropy weighted voting, a novel
training-free method to further boost the accuracy of sequential scaling. By
weighing answers in proportion to the inverse entropy of their reasoning
chains, we increase our success rate over parallel majority and establish it as
the optimal test-time scaling strategy. Our findings fundamentally challenge
the parallel reasoning orthodoxy that has dominated test-time scaling since
Wang et al.'s self-consistency decoding (Wang et al., 2022), positioning
sequential refinement as the robust default for modern LLM reasoning and
necessitating a paradigm shift in how we approach inference-time optimization.