AdaptThink: I Modelli di Ragionamento Possono Imparare Quando Pensare

Abstract

Recentemente, i modelli di ragionamento su larga scala hanno ottenuto prestazioni impressionanti in vari compiti impiegando un pensiero profondo simile a quello umano. Tuttavia, il processo di pensiero prolungato aumenta sostanzialmente il sovraccarico di inferenza, rendendo l'efficienza un collo di bottiglia critico. In questo lavoro, dimostriamo innanzitutto che il NoThinking, che spinge il modello di ragionamento a saltare il pensiero e generare direttamente la soluzione finale, è una scelta migliore per compiti relativamente semplici in termini sia di prestazioni che di efficienza. Motivati da ciò, proponiamo AdaptThink, un nuovo algoritmo di RL per insegnare ai modelli di ragionamento a scegliere in modo adattivo la modalità di pensiero ottimale in base alla difficoltà del problema. Nello specifico, AdaptThink presenta due componenti principali: (1) un obiettivo di ottimizzazione vincolato che incoraggia il modello a scegliere il NoThinking mantenendo le prestazioni complessive; (2) una strategia di campionamento per importanza che bilancia i campioni di Thinking e NoThinking durante l'addestramento on-policy, consentendo così un avvio a freddo e permettendo al modello di esplorare e sfruttare entrambe le modalità di pensiero durante il processo di addestramento. I nostri esperimenti indicano che AdaptThink riduce significativamente i costi di inferenza migliorando ulteriormente le prestazioni. In particolare, su tre dataset matematici, AdaptThink riduce la lunghezza media della risposta di DeepSeek-R1-Distill-Qwen-1.5B del 53% e migliora la sua accuratezza del 2.4%, evidenziando il potenziale della selezione adattiva della modalità di pensiero per ottimizzare il bilanciamento tra qualità del ragionamento ed efficienza. I nostri codici e modelli sono disponibili su https://github.com/THU-KEG/AdaptThink.

English

Recently, large reasoning models have achieved impressive performance on various tasks by employing human-like deep thinking. However, the lengthy thinking process substantially increases inference overhead, making efficiency a critical bottleneck. In this work, we first demonstrate that NoThinking, which prompts the reasoning model to skip thinking and directly generate the final solution, is a better choice for relatively simple tasks in terms of both performance and efficiency. Motivated by this, we propose AdaptThink, a novel RL algorithm to teach reasoning models to choose the optimal thinking mode adaptively based on problem difficulty. Specifically, AdaptThink features two core components: (1) a constrained optimization objective that encourages the model to choose NoThinking while maintaining the overall performance; (2) an importance sampling strategy that balances Thinking and NoThinking samples during on-policy training, thereby enabling cold start and allowing the model to explore and exploit both thinking modes throughout the training process. Our experiments indicate that AdaptThink significantly reduces the inference costs while further enhancing performance. Notably, on three math datasets, AdaptThink reduces the average response length of DeepSeek-R1-Distill-Qwen-1.5B by 53% and improves its accuracy by 2.4%, highlighting the promise of adaptive thinking-mode selection for optimizing the balance between reasoning quality and efficiency. Our codes and models are available at https://github.com/THU-KEG/AdaptThink.

AdaptThink: I Modelli di Ragionamento Possono Imparare Quando Pensare

AdaptThink: Reasoning Models Can Learn When to Think

Abstract

Support