OThink-R1: Intrinsieke Snel/Langzaam Denkmodus Schakeling voor Overredenering Mitigatie
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation
June 3, 2025
Auteurs: Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang
cs.AI
Samenvatting
Recente geavanceerde grote redeneermodellen (LRM's) maken gebruik van uitgebreide keten-van-gedachte (CoT) redenering om complexe taken op te lossen, waarbij ze state-of-the-art prestaties behalen. Ondanks hun succes identificeren we een kritiek probleem: een aanzienlijk deel van de eenvoudige taken die door LRM's worden opgelost, kan ook worden aangepakt door niet-redenerende LLM's met aanzienlijk minder tokens, wat aangeeft dat complexe redenering niet altijd nodig is. Om dit aan te pakken, analyseren we systematisch de redeneertrajecten van LRM's en presenteren we een methode die gebruikmaakt van geïdentificeerde paradigma's en LLM-Judge om deze trajecten te classificeren als Redundante Redenering of Essentiële Redenering. We introduceren OThink-R1, een methode die redundante redeneerstappen verwijdert terwijl de logische geldigheid behouden blijft. OThink-R1 schakelt dynamisch over naar de niet-denken-modus (snel denken) voor eenvoudige problemen, terwijl het bewust denken (langzaam denken) toepast voor complexe problemen. Experimenten op wiskundige en vraag-antwoordtaken tonen aan dat OThink-R1 de redundantie in redenering met bijna 23% gemiddeld vermindert zonder de nauwkeurigheid aan te tasten, wat praktische richtlijnen biedt voor efficiënte redeneermodellen. De code is beschikbaar op https://github.com/AgenticIR-Lab/OThink-R1.
English
Recent advanced large reasoning models (LRMs) leverage extended
chain-of-thought (CoT) reasoning to solve complex tasks, achieving
state-of-the-art performance. Despite their success, we identify a critical
issue: a substantial portion of simple tasks solved by LRMs can also be
addressed by non-reasoning LLMs using significantly fewer tokens, indicating
the complex reasoning may not always be necessary. To address this, we
systematically analyze the reasoning trajectories of LRMs and present a method
utilizing identified paradigms and LLM-Judge to classify these trajectories as
either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1,
a method that prunes redundant reasoning steps while preserving logical
validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking)
for straightforward problems while engaging in deliberate thinking
(slow-thinking) for complex problems. Experiments across mathematical and
question-answering tasks demonstrate that OThink-R1 reduces reasoning
redundancy by almost 23\% on average without compromising accuracy, offering
practical guidelines for efficient reasoning models. The code is available at
https://github.com/AgenticIR-Lab/OThink-R1.