Pensa Solo Quando È Necessario con Modelli Ibridi di Ragionamento su Grande Scala

Abstract

I recenti Modelli di Ragionamento su Grande Scala (LRMs) hanno dimostrato capacità di ragionamento notevolmente migliorate rispetto ai tradizionali Modelli Linguistici su Grande Scala (LLMs), grazie all'incorporazione di processi di pensiero estesi prima di produrre risposte finali. Tuttavia, un pensiero eccessivamente prolungato introduce un sovraccarico significativo in termini di consumo di token e latenza, che risulta particolarmente superfluo per query semplici. In questo lavoro, introduciamo i Modelli di Ragionamento Ibrido su Grande Scala (LHRMs), il primo tipo di modello in grado di determinare in modo adattivo se eseguire o meno il pensiero basandosi sulle informazioni contestuali delle query degli utenti. Per raggiungere questo obiettivo, proponiamo una pipeline di addestramento in due fasi che comprende un Fine-Tuning Ibrido (HFT) come avvio a freddo, seguito da un apprendimento per rinforzo online con la proposta Ottimizzazione delle Politiche di Gruppo Ibrido (HGPO) per imparare implicitamente a selezionare la modalità di pensiero appropriata. Inoltre, introduciamo una metrica chiamata Accuratezza Ibrida per valutare quantitativamente la capacità del modello di pensiero ibrido. I risultati sperimentali estesi dimostrano che gli LHRMs possono eseguire in modo adattivo un pensiero ibrido su query di diversa difficoltà e tipo. Superano gli LRMs e gli LLMs esistenti sia nelle capacità di ragionamento che in quelle generali, migliorando significativamente l'efficienza. Insieme, il nostro lavoro promuove una riconsiderazione dell'uso appropriato dei processi di pensiero estesi e fornisce un solido punto di partenza per la costruzione di sistemi di pensiero ibrido.

English

Recent Large Reasoning Models (LRMs) have shown substantially improved reasoning capabilities over traditional Large Language Models (LLMs) by incorporating extended thinking processes prior to producing final responses. However, excessively lengthy thinking introduces substantial overhead in terms of token consumption and latency, which is particularly unnecessary for simple queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the first kind of model capable of adaptively determining whether to perform thinking based on the contextual information of user queries. To achieve this, we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as a cold start, followed by online reinforcement learning with the proposed Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the appropriate thinking mode. Furthermore, we introduce a metric called Hybrid Accuracy to quantitatively assess the model's capability for hybrid thinking. Extensive experimental results show that LHRMs can adaptively perform hybrid thinking on queries of varying difficulty and type. It outperforms existing LRMs and LLMs in reasoning and general capabilities while significantly improving efficiency. Together, our work advocates for a reconsideration of the appropriate use of extended thinking processes and provides a solid starting point for building hybrid thinking systems.

Pensa Solo Quando È Necessario con Modelli Ibridi di Ragionamento su Grande Scala

Think Only When You Need with Large Hybrid-Reasoning Models

Abstract

Support