裁定取引:利得認識型推測による効率的な推論
Arbitrage: Efficient Reasoning via Advantage-Aware Speculation
December 4, 2025
著者: Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, Kerem Dilmen, Coleman Hooper, Haocheng Xi, Nicholas Lee, Mehrdad Farajtabar, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI
要旨
現代の大規模言語モデルは、長い連鎖思考により印象的な推論能力を達成しているが、推論時に多大な計算コストが発生し、これが性能とコストの比率を改善する技術の動機となっている。こうした技術の中でも、投機的デコーディングは、高速だが不正確な下書きモデルを用いて自動回帰的にトークンを提案し、それをより高能力なターゲットモデルが並列で検証する推論加速手法である。しかし、意味的に等価なステップにおけるトークンの不一致による不必要な棄却のため、従来のトークンレベルの投機的デコーディングは推論タスクで苦戦する。近年の研究はステップレベルの意味的検証へ移行し、推論ステップ全体を受理または棄却することで効率を改善しているが、既存のステップレベル手法でも多くの棄却ステップを再生成するため改善が小さく、貴重なターゲットモデルの計算リソースが浪費されている。この課題に対処するため、我々はアービトラージ(Arbitrage)という新しいステップレベル投機的生成フレームワークを提案する。これは下書きモデルとターゲットモデルの相対的優位性に基づいて生成を動的に振り分ける。固定の受理閾値を適用する代わりに、アービトラージはターゲットモデルが意味的に優れたステップを生成しそうなタイミングを予測するように訓練された軽量なルーターを使用する。この振り分けは、常により高品質なステップを選択する理想的なアービトラージオラクルを近似し、最適に近い効率と精度のトレードオフを実現する。複数の数学的推論ベンチマークにおいて、アービトラージは従来のステップレベル投機的デコーディングベースラインを一貫して上回り、同等の精度で推論レイテンシを最大2倍近く削減した。
English
Modern Large Language Models achieve impressive reasoning capabilities with long Chain of Thoughts, but they incur substantial computational cost during inference, and this motivates techniques to improve the performance-cost ratio. Among these techniques, Speculative Decoding accelerates inference by employing a fast but inaccurate draft model to autoregressively propose tokens, which are then verified in parallel by a more capable target model. However, due to unnecessary rejections caused by token mismatches in semantically equivalent steps, traditional token-level Speculative Decoding struggles in reasoning tasks. Although recent works have shifted to step-level semantic verification, which improve efficiency by accepting or rejecting entire reasoning steps, existing step-level methods still regenerate many rejected steps with little improvement, wasting valuable target compute. To address this challenge, we propose Arbitrage, a novel step-level speculative generation framework that routes generation dynamically based on the relative advantage between draft and target models. Instead of applying a fixed acceptance threshold, Arbitrage uses a lightweight router trained to predict when the target model is likely to produce a meaningfully better step. This routing approximates an ideal Arbitrage Oracle that always chooses the higher-quality step, achieving near-optimal efficiency-accuracy trade-offs. Across multiple mathematical reasoning benchmarks, Arbitrage consistently surpasses prior step-level Speculative Decoding baselines, reducing inference latency by up to sim2times at matched accuracy.