ChatPaper.aiChatPaper

OThink-R1: Intrinsischer Wechsel zwischen schnellem/langsamem Denkmodus zur Minderung von Überdenken

OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

June 3, 2025
Autoren: Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang
cs.AI

Zusammenfassung

Aktuelle fortschrittliche große Denkmodelle (Large Reasoning Models, LRMs) nutzen erweiterte Ketten von Gedanken (Chain-of-Thought, CoT), um komplexe Aufgaben zu lösen und dabei Spitzenleistungen zu erzielen. Trotz ihres Erfolgs identifizieren wir ein kritisches Problem: Ein erheblicher Teil der einfachen Aufgaben, die von LRMs gelöst werden, kann auch von nicht-reasoning LLMs (Large Language Models) mit deutlich weniger Tokens bewältigt werden, was darauf hindeutet, dass komplexes Denken nicht immer notwendig ist. Um dies zu adressieren, analysieren wir systematisch die Denkpfade von LRMs und stellen eine Methode vor, die identifizierte Paradigmen und LLM-Judge nutzt, um diese Pfade als entweder Redundantes Denken oder Essenzielles Denken zu klassifizieren. Zudem führen wir OThink-R1 ein, eine Methode, die redundante Denkschritte entfernt, während die logische Gültigkeit erhalten bleibt. OThink-R1 setzt dynamisch den Nicht-Denk-Modus (schnelles Denken) für einfache Probleme ein, während es für komplexe Probleme bewusstes Denken (langsames Denken) aktiviert. Experimente in mathematischen und Frage-Antwort-Aufgaben zeigen, dass OThink-R1 die Redundanz im Denken im Durchschnitt um fast 23 % reduziert, ohne die Genauigkeit zu beeinträchtigen, und bietet praktische Leitlinien für effiziente Denkmodelle. Der Code ist verfügbar unter https://github.com/AgenticIR-Lab/OThink-R1.
English
Recent advanced large reasoning models (LRMs) leverage extended chain-of-thought (CoT) reasoning to solve complex tasks, achieving state-of-the-art performance. Despite their success, we identify a critical issue: a substantial portion of simple tasks solved by LRMs can also be addressed by non-reasoning LLMs using significantly fewer tokens, indicating the complex reasoning may not always be necessary. To address this, we systematically analyze the reasoning trajectories of LRMs and present a method utilizing identified paradigms and LLM-Judge to classify these trajectories as either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1, a method that prunes redundant reasoning steps while preserving logical validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking) for straightforward problems while engaging in deliberate thinking (slow-thinking) for complex problems. Experiments across mathematical and question-answering tasks demonstrate that OThink-R1 reduces reasoning redundancy by almost 23\% on average without compromising accuracy, offering practical guidelines for efficient reasoning models. The code is available at https://github.com/AgenticIR-Lab/OThink-R1.
PDF332June 4, 2025