ChatPaper.aiChatPaper

必要な時だけ思考する大規模ハイブリッド推論モデル

Think Only When You Need with Large Hybrid-Reasoning Models

May 20, 2025
著者: Lingjie Jiang, Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei
cs.AI

要旨

近年の大規模推論モデル(LRM)は、最終的な応答を生成する前に拡張された思考プロセスを組み込むことで、従来の大規模言語モデル(LLM)を大幅に上回る推論能力を示しています。しかし、過度に長い思考はトークン消費とレイテンシの面で大きなオーバーヘッドを引き起こし、特に単純なクエリでは不必要です。本研究では、ユーザークエリの文脈情報に基づいて思考を実行するかどうかを適応的に決定できる初めてのモデルである大規模ハイブリッド推論モデル(LHRM)を紹介します。これを実現するために、ハイブリッドファインチューニング(HFT)をコールドスタートとして、その後提案されたハイブリッドグループポリシー最適化(HGPO)を用いたオンライン強化学習を行う二段階のトレーニングパイプラインを提案します。さらに、ハイブリッド思考能力を定量的に評価するための指標であるハイブリッド精度を導入します。広範な実験結果は、LHRMが難易度やタイプの異なるクエリに対して適応的にハイブリッド思考を実行できることを示しています。LHRMは既存のLRMやLLMを推論能力と一般的な能力の両面で上回りながら、効率を大幅に向上させます。本研究は、拡張された思考プロセスの適切な使用を再考することを提唱し、ハイブリッド思考システムを構築するための堅実な出発点を提供します。
English
Recent Large Reasoning Models (LRMs) have shown substantially improved reasoning capabilities over traditional Large Language Models (LLMs) by incorporating extended thinking processes prior to producing final responses. However, excessively lengthy thinking introduces substantial overhead in terms of token consumption and latency, which is particularly unnecessary for simple queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the first kind of model capable of adaptively determining whether to perform thinking based on the contextual information of user queries. To achieve this, we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as a cold start, followed by online reinforcement learning with the proposed Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the appropriate thinking mode. Furthermore, we introduce a metric called Hybrid Accuracy to quantitatively assess the model's capability for hybrid thinking. Extensive experimental results show that LHRMs can adaptively perform hybrid thinking on queries of varying difficulty and type. It outperforms existing LRMs and LLMs in reasoning and general capabilities while significantly improving efficiency. Together, our work advocates for a reconsideration of the appropriate use of extended thinking processes and provides a solid starting point for building hybrid thinking systems.

Summary

AI-Generated Summary

PDF111May 21, 2025