Thinkless: LLM lernt, wann es denken soll
Thinkless: LLM Learns When to Think
May 19, 2025
Autoren: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
Zusammenfassung
Reasoning Language Models, die zu erweiterten Ketten von Denkschritten (Chain-of-Thought Reasoning) fähig sind, haben bemerkenswerte Leistungen bei Aufgaben gezeigt, die komplexe logische Schlussfolgerungen erfordern. Die Anwendung aufwendiger Denkprozesse für alle Anfragen führt jedoch häufig zu erheblichen Rechenineffizienzen, insbesondere wenn viele Probleme einfache Lösungen zulassen. Dies wirft eine offene Frage auf: Können LLMs lernen, wann sie denken sollen? Um dies zu beantworten, schlagen wir Thinkless vor, ein lernbares Framework, das einem LLM ermöglicht, adaptiv zwischen kurzen und ausführlichen Denkprozessen zu wählen, basierend auf der Aufgabenkomplexität und den Fähigkeiten des Modells. Thinkless wird unter einem Reinforcement-Learning-Paradigma trainiert und verwendet zwei Steuertokens: <short> für prägnante Antworten und <think> für detaillierte Schlussfolgerungen. Kern unserer Methode ist ein Decoupled Group Relative Policy Optimization (DeGRPO)-Algorithmus, der das Lernziel des hybriden Denkens in zwei Komponenten zerlegt: (1) einen Steuertoken-Verlust, der die Auswahl des Denkmodus steuert, und (2) einen Antwortverlust, der die Genauigkeit der generierten Antworten verbessert. Diese entkoppelte Formulierung ermöglicht eine fein abgestimmte Kontrolle über die Beiträge jedes Ziels, stabilisiert das Training und verhindert effektiv den Zusammenbruch, der bei herkömmlichem GRPO beobachtet wird. Empirisch konnte Thinkless auf mehreren Benchmarks wie Minerva Algebra, MATH-500 und GSM8K die Nutzung von langen Denkketten um 50 % bis 90 % reduzieren und damit die Effizienz von Reasoning Language Models erheblich steigern. Der Code ist verfügbar unter https://github.com/VainF/Thinkless.
English
Reasoning Language Models, capable of extended chain-of-thought reasoning,
have demonstrated remarkable performance on tasks requiring complex logical
inference. However, applying elaborate reasoning for all queries often results
in substantial computational inefficiencies, particularly when many problems
admit straightforward solutions. This motivates an open question: Can LLMs
learn when to think? To answer this, we propose Thinkless, a learnable
framework that empowers an LLM to adaptively select between short-form and
long-form reasoning, based on both task complexity and the model's ability.
Thinkless is trained under a reinforcement learning paradigm and employs two
control tokens, <short> for concise responses and <think> for detailed
reasoning. At the core of our method is a Decoupled Group Relative Policy
Optimization (DeGRPO) algorithm, which decomposes the learning objective of
hybrid reasoning into two components: (1) a control token loss that governs the
selection of the reasoning mode, and (2) a response loss that improves the
accuracy of the generated answers. This decoupled formulation enables
fine-grained control over the contributions of each objective, stabilizing
training and effectively preventing collapse observed in vanilla GRPO.
Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and
GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% -
90%, significantly improving the efficiency of Reasoning Language Models. The
code is available at https://github.com/VainF/ThinklessSummary
AI-Generated Summary