ChatPaper.aiChatPaper

断片的な連鎖思考推論

Fractured Chain-of-Thought Reasoning

May 19, 2025
著者: Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong
cs.AI

要旨

推論時のスケーリング技術は、再学習を必要とせずに推論時に追加の計算リソースを活用することで、大規模言語モデル(LLM)の推論能力を大幅に向上させてきました。同様に、Chain-of-Thought(CoT)プロンプティングおよびその拡張版であるLong CoTは、豊富な中間推論軌跡を生成することで精度を向上させますが、これらのアプローチはトークンコストが高く、レイテンシに敏感な環境での展開を妨げています。本研究ではまず、推論を完了前に停止し直接最終回答を生成する「切り詰められたCoT」が、完全なCoTサンプリングと同等の精度を維持しつつ、劇的に少ないトークンで実現できることを示します。この知見を基に、我々はFractured Samplingを提案します。これは、完全なCoTと解答のみのサンプリングの間を補間する統一的な推論時戦略であり、以下の3つの直交する軸に沿って調整されます:(1)推論軌跡の数、(2)各軌跡における最終解答の数、(3)推論トレースが切り詰められる深さ。5つの多様な推論ベンチマークと複数のモデル規模にわたる広範な実験を通じて、Fractured Samplingが一貫して優れた精度とコストのトレードオフを達成し、Pass@k対トークンバジェットにおいて急峻な対数線形スケーリングの利得をもたらすことを実証します。我々の分析は、これらの次元間で計算リソースをどのように配分すれば性能を最大化できるかを明らかにし、より効率的でスケーラブルなLLM推論への道を開きます。
English
Inference-time scaling techniques have significantly bolstered the reasoning capabilities of large language models (LLMs) by harnessing additional computational effort at inference without retraining. Similarly, Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy by generating rich intermediate reasoning trajectories, but these approaches incur substantial token costs that impede their deployment in latency-sensitive settings. In this work, we first show that truncated CoT, which stops reasoning before completion and directly generates the final answer, often matches full CoT sampling while using dramatically fewer tokens. Building on this insight, we introduce Fractured Sampling, a unified inference-time strategy that interpolates between full CoT and solution-only sampling along three orthogonal axes: (1) the number of reasoning trajectories, (2) the number of final solutions per trajectory, and (3) the depth at which reasoning traces are truncated. Through extensive experiments on five diverse reasoning benchmarks and several model scales, we demonstrate that Fractured Sampling consistently achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling gains in Pass@k versus token budget. Our analysis reveals how to allocate computation across these dimensions to maximize performance, paving the way for more efficient and scalable LLM reasoning.

Summary

AI-Generated Summary

PDF182May 20, 2025