Denk alleen wanneer het nodig is met grote hybride-redeneermodellen
Think Only When You Need with Large Hybrid-Reasoning Models
May 20, 2025
Auteurs: Lingjie Jiang, Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei
cs.AI
Samenvatting
Recente Large Reasoning Models (LRMs) hebben aanzienlijk verbeterde redeneervaardigheden getoond in vergelijking met traditionele Large Language Models (LLMs) door uitgebreide denkprocessen te integreren voordat ze definitieve antwoorden produceren. Echter, een te lange denkfase introduceert aanzienlijke overhead in termen van tokenverbruik en latentie, wat vooral onnodig is voor eenvoudige vragen. In dit werk introduceren we Large Hybrid-Reasoning Models (LHRMs), het eerste type model dat adaptief kan bepalen of het denkprocessen moet uitvoeren op basis van de contextuele informatie van gebruikersvragen. Om dit te bereiken, stellen we een tweefasig trainingspijplijn voor, bestaande uit Hybrid Fine-Tuning (HFT) als een koude start, gevolgd door online reinforcement learning met de voorgestelde Hybrid Group Policy Optimization (HGPO) om impliciet te leren het juiste denkmodus te selecteren. Bovendien introduceren we een metriek genaamd Hybrid Accuracy om het vermogen van het model voor hybride denken kwantitatief te beoordelen. Uitgebreide experimentele resultaten tonen aan dat LHRMs adaptief hybride denken kunnen uitvoeren op vragen van verschillende moeilijkheidsgraden en typen. Het overtreft bestaande LRMs en LLMs in redeneer- en algemene vaardigheden terwijl het de efficiëntie aanzienlijk verbetert. Samen pleit ons werk voor een heroverweging van het juiste gebruik van uitgebreide denkprocessen en biedt het een solide startpunt voor het bouwen van hybride denksystemen.
English
Recent Large Reasoning Models (LRMs) have shown substantially improved
reasoning capabilities over traditional Large Language Models (LLMs) by
incorporating extended thinking processes prior to producing final responses.
However, excessively lengthy thinking introduces substantial overhead in terms
of token consumption and latency, which is particularly unnecessary for simple
queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the
first kind of model capable of adaptively determining whether to perform
thinking based on the contextual information of user queries. To achieve this,
we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as
a cold start, followed by online reinforcement learning with the proposed
Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the
appropriate thinking mode. Furthermore, we introduce a metric called Hybrid
Accuracy to quantitatively assess the model's capability for hybrid thinking.
Extensive experimental results show that LHRMs can adaptively perform hybrid
thinking on queries of varying difficulty and type. It outperforms existing
LRMs and LLMs in reasoning and general capabilities while significantly
improving efficiency. Together, our work advocates for a reconsideration of the
appropriate use of extended thinking processes and provides a solid starting
point for building hybrid thinking systems.Summary
AI-Generated Summary