SpecReason: 推論時の高速かつ正確な計算を実現する推測的推論
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning
April 10, 2025
著者: Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali
cs.AI
要旨
近年の推論時計算の進歩により、大規模推論モデル(LRM)を用いて長い思考連鎖(CoT)を生成することで、複雑なタスクにおける性能が大幅に向上しました。しかし、この精度向上は、生成される推論シーケンスの長さと自己回帰的なデコードの性質により、高い推論遅延という代償を伴います。これらのオーバーヘッドに対処するための我々の重要な洞察は、LRM推論およびそれに埋め込まれた推論が近似に対して非常に寛容であるということです。複雑なタスクは通常、より単純なステップに分解され、各ステップは生成される正確なトークンではなく、下流のステップに対する意味的洞察に基づいて有用性をもたらします。これに基づき、我々はSpecReasonを導入します。これは、軽量モデルを使用して(推測的に)単純な中間推論ステップを実行し、高コストのベースモデルは推測された出力を評価(および必要に応じて修正)するためにのみ使用するシステムです。重要な点として、SpecReasonは、最終的な回答の精度を維持するために思考トークンの意味的柔軟性を活用することに焦点を当てており、これは各ステップでトークンレベルの等価性を要求する従来の推測的デコード技術と補完的です。様々な推論ベンチマークにおいて、SpecReasonは従来のLRM推論に比べて1.5~2.5倍の高速化を実現し、精度を1.0~9.9%向上させます。SpecReasonなしの推測的デコードと比較すると、それらの組み合わせにより、さらに19.4~44.2%の遅延削減が得られます。我々はSpecReasonをhttps://github.com/ruipeterpan/specreasonでオープンソース化しています。
English
Recent advances in inference-time compute have significantly improved
performance on complex tasks by generating long chains of thought (CoTs) using
Large Reasoning Models (LRMs). However, this improved accuracy comes at the
cost of high inference latency due to the length of generated reasoning
sequences and the autoregressive nature of decoding. Our key insight in
tackling these overheads is that LRM inference, and the reasoning that it
embeds, is highly tolerant of approximations: complex tasks are typically
broken down into simpler steps, each of which brings utility based on the
semantic insight it provides for downstream steps rather than the exact tokens
it generates. Accordingly, we introduce SpecReason, a system that automatically
accelerates LRM inference by using a lightweight model to (speculatively) carry
out simpler intermediate reasoning steps and reserving the costly base model
only to assess (and potentially correct) the speculated outputs. Importantly,
SpecReason's focus on exploiting the semantic flexibility of thinking tokens in
preserving final-answer accuracy is complementary to prior speculation
techniques, most notably speculative decoding, which demands token-level
equivalence at each step. Across a variety of reasoning benchmarks, SpecReason
achieves 1.5-2.5times speedup over vanilla LRM inference while improving
accuracy by 1.0-9.9\%. Compared to speculative decoding without SpecReason,
their combination yields an additional 19.4-44.2\% latency reduction. We
open-source SpecReason at https://github.com/ruipeterpan/specreason.Summary
AI-Generated Summary