ChatPaper.aiChatPaper

OThink-R1: Commutazione Intrinseca tra Modalità di Pensiero Veloce/Lento per la Mitigazione del Sovra-ragionamento

OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

June 3, 2025
Autori: Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang
cs.AI

Abstract

I recenti modelli avanzati di ragionamento su larga scala (LRM) sfruttano il ragionamento a catena di pensiero (CoT) esteso per risolvere compiti complessi, raggiungendo prestazioni all'avanguardia. Nonostante il loro successo, abbiamo identificato un problema critico: una porzione significativa di compiti semplici risolti dagli LRM può essere affrontata anche da LLM non basati sul ragionamento utilizzando un numero significativamente inferiore di token, indicando che il ragionamento complesso potrebbe non essere sempre necessario. Per affrontare questo problema, analizziamo sistematicamente le traiettorie di ragionamento degli LRM e presentiamo un metodo che utilizza paradigmi identificati e LLM-Judge per classificare queste traiettorie come Ragionamento Ridondante o Ragionamento Essenziale. Introduciamo inoltre OThink-R1, un metodo che pota i passaggi di ragionamento ridondanti preservando la validità logica. OThink-R1 impiega dinamicamente la modalità non pensante (pensiero veloce) per problemi semplici, mentre si impegna in un pensiero deliberato (pensiero lento) per problemi complessi. Esperimenti su compiti matematici e di risposta alle domande dimostrano che OThink-R1 riduce la ridondanza del ragionamento di quasi il 23% in media senza compromettere l'accuratezza, offrendo linee guida pratiche per modelli di ragionamento efficienti. Il codice è disponibile all'indirizzo https://github.com/AgenticIR-Lab/OThink-R1.
English
Recent advanced large reasoning models (LRMs) leverage extended chain-of-thought (CoT) reasoning to solve complex tasks, achieving state-of-the-art performance. Despite their success, we identify a critical issue: a substantial portion of simple tasks solved by LRMs can also be addressed by non-reasoning LLMs using significantly fewer tokens, indicating the complex reasoning may not always be necessary. To address this, we systematically analyze the reasoning trajectories of LRMs and present a method utilizing identified paradigms and LLM-Judge to classify these trajectories as either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1, a method that prunes redundant reasoning steps while preserving logical validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking) for straightforward problems while engaging in deliberate thinking (slow-thinking) for complex problems. Experiments across mathematical and question-answering tasks demonstrate that OThink-R1 reduces reasoning redundancy by almost 23\% on average without compromising accuracy, offering practical guidelines for efficient reasoning models. The code is available at https://github.com/AgenticIR-Lab/OThink-R1.
PDF362June 4, 2025