Pensa Solo Quando È Necessario con Modelli Ibridi di Ragionamento su Grande Scala
Think Only When You Need with Large Hybrid-Reasoning Models
May 20, 2025
Autori: Lingjie Jiang, Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei
cs.AI
Abstract
I recenti Modelli di Ragionamento su Grande Scala (LRMs) hanno dimostrato capacità di ragionamento notevolmente migliorate rispetto ai tradizionali Modelli Linguistici su Grande Scala (LLMs), grazie all'incorporazione di processi di pensiero estesi prima di produrre risposte finali. Tuttavia, un pensiero eccessivamente prolungato introduce un sovraccarico significativo in termini di consumo di token e latenza, che risulta particolarmente superfluo per query semplici. In questo lavoro, introduciamo i Modelli di Ragionamento Ibrido su Grande Scala (LHRMs), il primo tipo di modello in grado di determinare in modo adattivo se eseguire o meno il pensiero basandosi sulle informazioni contestuali delle query degli utenti. Per raggiungere questo obiettivo, proponiamo una pipeline di addestramento in due fasi che comprende un Fine-Tuning Ibrido (HFT) come avvio a freddo, seguito da un apprendimento per rinforzo online con la proposta Ottimizzazione delle Politiche di Gruppo Ibrido (HGPO) per imparare implicitamente a selezionare la modalità di pensiero appropriata. Inoltre, introduciamo una metrica chiamata Accuratezza Ibrida per valutare quantitativamente la capacità del modello di pensiero ibrido. I risultati sperimentali estesi dimostrano che gli LHRMs possono eseguire in modo adattivo un pensiero ibrido su query di diversa difficoltà e tipo. Superano gli LRMs e gli LLMs esistenti sia nelle capacità di ragionamento che in quelle generali, migliorando significativamente l'efficienza. Insieme, il nostro lavoro promuove una riconsiderazione dell'uso appropriato dei processi di pensiero estesi e fornisce un solido punto di partenza per la costruzione di sistemi di pensiero ibrido.
English
Recent Large Reasoning Models (LRMs) have shown substantially improved
reasoning capabilities over traditional Large Language Models (LLMs) by
incorporating extended thinking processes prior to producing final responses.
However, excessively lengthy thinking introduces substantial overhead in terms
of token consumption and latency, which is particularly unnecessary for simple
queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the
first kind of model capable of adaptively determining whether to perform
thinking based on the contextual information of user queries. To achieve this,
we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as
a cold start, followed by online reinforcement learning with the proposed
Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the
appropriate thinking mode. Furthermore, we introduce a metric called Hybrid
Accuracy to quantitatively assess the model's capability for hybrid thinking.
Extensive experimental results show that LHRMs can adaptively perform hybrid
thinking on queries of varying difficulty and type. It outperforms existing
LRMs and LLMs in reasoning and general capabilities while significantly
improving efficiency. Together, our work advocates for a reconsideration of the
appropriate use of extended thinking processes and provides a solid starting
point for building hybrid thinking systems.