AdaR1: Da Long-CoT a Hybrid-CoT tramite Ottimizzazione Bi-Livello del Ragionamento Adattivo
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization
April 30, 2025
Autori: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen
cs.AI
Abstract
Recentemente, i modelli di ragionamento a lungo termine hanno ottenuto prestazioni elevate su compiti di ragionamento complessi, ma spesso comportano un sovraccarico computazionale significativo, rendendo l'efficienza una preoccupazione critica. La nostra analisi empirica rivela che il vantaggio dell'utilizzo di Long-CoT varia a seconda del problema: mentre alcuni problemi richiedono un ragionamento elaborato, altri non mostrano miglioramenti o addirittura una riduzione dell'accuratezza. Ciò motiva l'adozione di strategie di ragionamento adattivo che adattano la profondità del ragionamento all'input. Tuttavia, il lavoro precedente si è principalmente concentrato sulla riduzione della ridondanza all'interno dei percorsi di ragionamento lunghi, limitando l'esplorazione di strategie più efficienti al di fuori del paradigma Long-CoT. Per affrontare questo problema, proponiamo un nuovo framework a due stadi per un ragionamento adattivo ed efficiente. In primo luogo, costruiamo un modello di ragionamento ibrido unendo modelli CoT lunghi e corti per abilitare stili di ragionamento diversi. In secondo luogo, applichiamo un addestramento a preferenza bi-livello per guidare il modello a selezionare stili di ragionamento adeguati (a livello di gruppo) e preferire un ragionamento conciso e corretto all'interno di ciascun gruppo di stile (a livello di istanza). Gli esperimenti dimostrano che il nostro metodo riduce significativamente i costi di inferenza rispetto ad altri approcci di base, mantenendo al contempo le prestazioni. In particolare, su cinque dataset matematici, la lunghezza media del ragionamento è ridotta di oltre il 50%, evidenziando il potenziale delle strategie adattive per ottimizzare l'efficienza del ragionamento nei grandi modelli linguistici. Il nostro codice sarà presto disponibile su https://github.com/StarDewXXX/AdaR1.
English
Recently, long-thought reasoning models achieve strong performance on complex
reasoning tasks, but often incur substantial inference overhead, making
efficiency a critical concern. Our empirical analysis reveals that the benefit
of using Long-CoT varies across problems: while some problems require elaborate
reasoning, others show no improvement, or even degraded accuracy. This
motivates adaptive reasoning strategies that tailor reasoning depth to the
input. However, prior work primarily reduces redundancy within long reasoning
paths, limiting exploration of more efficient strategies beyond the Long-CoT
paradigm. To address this, we propose a novel two-stage framework for adaptive
and efficient reasoning. First, we construct a hybrid reasoning model by
merging long and short CoT models to enable diverse reasoning styles. Second,
we apply bi-level preference training to guide the model to select suitable
reasoning styles (group-level), and prefer concise and correct reasoning within
each style group (instance-level). Experiments demonstrate that our method
significantly reduces inference costs compared to other baseline approaches,
while maintaining performance. Notably, on five mathematical datasets, the
average length of reasoning is reduced by more than 50%, highlighting the
potential of adaptive strategies to optimize reasoning efficiency in large
language models. Our code is coming soon at https://github.com/StarDewXXX/AdaR1