OThink-R1 : Commutation intrinsèque entre modes de pensée rapide/lente pour l'atténuation de la sur-réflexion
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation
June 3, 2025
Auteurs: Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang
cs.AI
Résumé
Les modèles récents de raisonnement à grande échelle (LRMs) exploitent des chaînes de pensée étendues (CoT) pour résoudre des tâches complexes, atteignant des performances de pointe. Malgré leur succès, nous identifions un problème critique : une part importante des tâches simples résolues par les LRMs peut également être traitée par des modèles de langage non raisonneurs (LLMs) en utilisant bien moins de tokens, ce qui suggère que le raisonnement complexe n'est pas toujours nécessaire. Pour remédier à cela, nous analysons systématiquement les trajectoires de raisonnement des LRMs et proposons une méthode utilisant des paradigmes identifiés et un LLM-Juge pour classer ces trajectoires en Raisonnement Redondant ou Raisonnement Essentiel. Nous introduisons également OThink-R1, une méthode qui élimine les étapes de raisonnement redondantes tout en préservant la validité logique. OThink-R1 utilise dynamiquement le mode non-réfléchi (pensée rapide) pour les problèmes simples et engage une réflexion approfondie (pensée lente) pour les problèmes complexes. Les expériences menées sur des tâches mathématiques et de question-réponse montrent qu'OThink-R1 réduit la redondance de raisonnement de près de 23 % en moyenne sans compromettre la précision, offrant ainsi des directives pratiques pour des modèles de raisonnement efficaces. Le code est disponible à l'adresse suivante : https://github.com/AgenticIR-Lab/OThink-R1.
English
Recent advanced large reasoning models (LRMs) leverage extended
chain-of-thought (CoT) reasoning to solve complex tasks, achieving
state-of-the-art performance. Despite their success, we identify a critical
issue: a substantial portion of simple tasks solved by LRMs can also be
addressed by non-reasoning LLMs using significantly fewer tokens, indicating
the complex reasoning may not always be necessary. To address this, we
systematically analyze the reasoning trajectories of LRMs and present a method
utilizing identified paradigms and LLM-Judge to classify these trajectories as
either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1,
a method that prunes redundant reasoning steps while preserving logical
validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking)
for straightforward problems while engaging in deliberate thinking
(slow-thinking) for complex problems. Experiments across mathematical and
question-answering tasks demonstrate that OThink-R1 reduces reasoning
redundancy by almost 23\% on average without compromising accuracy, offering
practical guidelines for efficient reasoning models. The code is available at
https://github.com/AgenticIR-Lab/OThink-R1.