ChatPaper.aiChatPaper

필요할 때만 사고하라: 대형 하이브리드 추론 모델의 활용

Think Only When You Need with Large Hybrid-Reasoning Models

May 20, 2025
저자: Lingjie Jiang, Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei
cs.AI

초록

최근 대형 추론 모델(LRMs)은 최종 응답을 생성하기 전에 확장된 사고 과정을 통합함으로써 기존의 대형 언어 모델(LLMs)에 비해 상당히 향상된 추론 능력을 보여주었습니다. 그러나 지나치게 긴 사고 과정은 토큰 소비와 지연 시간 측면에서 상당한 오버헤드를 초래하며, 이는 특히 간단한 질문에는 불필요한 요소입니다. 본 연구에서는 사용자 질문의 문맥 정보를 기반으로 사고를 수행할지 여부를 적응적으로 결정할 수 있는 최초의 모델인 대형 하이브리드 추론 모델(LHRMs)을 소개합니다. 이를 위해 하이브리드 미세 조정(HFT)을 콜드 스타트로 포함한 두 단계의 학습 파이프라인을 제안하고, 제안된 하이브리드 그룹 정책 최적화(HGPO)를 통한 온라인 강화 학습을 통해 적절한 사고 모드를 선택하는 방법을 암묵적으로 학습합니다. 또한, 모델의 하이브리드 사고 능력을 정량적으로 평가하기 위해 하이브리드 정확도라는 메트릭을 도입합니다. 광범위한 실험 결과는 LHRMs가 다양한 난이도와 유형의 질문에 대해 적응적으로 하이브리드 사고를 수행할 수 있음을 보여줍니다. 이는 기존의 LRMs와 LLMs를 추론 및 일반 능력 측면에서 능가하면서도 효율성을 크게 개선합니다. 본 연구는 확장된 사고 과정의 적절한 사용에 대한 재고를 촉구하며, 하이브리드 사고 시스템 구축을 위한 견고한 출발점을 제공합니다.
English
Recent Large Reasoning Models (LRMs) have shown substantially improved reasoning capabilities over traditional Large Language Models (LLMs) by incorporating extended thinking processes prior to producing final responses. However, excessively lengthy thinking introduces substantial overhead in terms of token consumption and latency, which is particularly unnecessary for simple queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the first kind of model capable of adaptively determining whether to perform thinking based on the contextual information of user queries. To achieve this, we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as a cold start, followed by online reinforcement learning with the proposed Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the appropriate thinking mode. Furthermore, we introduce a metric called Hybrid Accuracy to quantitatively assess the model's capability for hybrid thinking. Extensive experimental results show that LHRMs can adaptively perform hybrid thinking on queries of varying difficulty and type. It outperforms existing LRMs and LLMs in reasoning and general capabilities while significantly improving efficiency. Together, our work advocates for a reconsideration of the appropriate use of extended thinking processes and provides a solid starting point for building hybrid thinking systems.

Summary

AI-Generated Summary

PDF111May 21, 2025