ChatPaper.aiChatPaper

TrajSelector: 大規模推論モデルにおける効率的かつ効果的なBest-of-Nを実現するための潜在表現の活用

TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model

October 18, 2025
著者: Bin Yu, Xinming Wang, Shijie Lian, Haotian Li, Changti Wu, Ruina Hu, Bailing Wang, Yuliang Wei, Kai Chen
cs.AI

要旨

大規模言語モデル(LLM)は、推論時に追加の計算リソースを割り当てるテストタイムスケーリング(TTS)パラダイムによって、複雑な推論タスクにおいて顕著な進歩を示してきました。特に、外部TTS(Best-of-N選択パラダイム)は、複数の独立して生成された推論軌道から選択することで、スケーラブルな性能向上をもたらします。しかし、このアプローチには重要な制約があります:(i)プロセス報酬モデルの展開に伴う高い計算コスト、(ii)LLMの内在的潜在表現の未活用です。本論文では、サンプラーLLMの隠れ状態を活用してプロセスレベルのスコアリングを行う、効率的かつ効果的なBest-of-NフレームワークであるTrajSelectorを紹介します。軽量な検証器(わずか0.6Bパラメータ)がステップごとの軌道の品質を評価し、これらのスコアを集約して最適な推論軌道を特定します。本フレームワークは、大規模なステップレベルのアノテーションに依存しない、完全にデータ駆動型のエンドツーエンドのトレーニングレシピを採用しています。5つのベンチマークでの実験結果は、TrajSelectorが一貫した性能向上をもたらすことを示しています。Best-of-32設定では、多数決を4.61%の精度で上回り、既存のプロセス報酬モデルを4.31%から12.21%上回りながら、推論コストを低く抑えています。
English
Large language models (LLMs) have shown remarkable progress in complex reasoning tasks, largely enabled by test-time scaling (TTS) paradigms that allocate additional compute during inference. Among these, external TTS (particularly the Best-of-N selection paradigm) yields scalable performance improvements by selecting from multiple independently generated reasoning trajectories. However, this approach faces key limitations: (i) the high computational overhead of deploying process reward models, (ii) the underutilization of the LLM's intrinsic latent representations. We introduce TrajSelector, an efficient and effective Best-of-N framework that exploit the hidden states in the sampler LLM for process-level scoring. A lightweight verifier (with only 0.6B parameters) evaluates the quality of step-wise trajectory, and then aggregates these scores to identify the optimal reasoning trajectory. Our framework employs a fully data-driven, end-to-end training recipe that eliminates reliance on massive step-level annotations. Experiential results across five benchmarks demonstrate that TrajSelector delivers consistent performance gains. In Best-of-32 settings, it surpasses majority voting by 4.61% accuracy and outperforms existing process reward models by 4.31% to 12.21%, all while maintaining lower inference costs.
PDF333October 21, 2025