Thinkless: LLM Leert Wanneer te Denken
Thinkless: LLM Learns When to Think
May 19, 2025
Auteurs: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
Samenvatting
Redenerende Taalmodellen, die in staat zijn tot uitgebreide keten-van-gedachten-redenering, hebben opmerkelijke prestaties getoond bij taken die complexe logische inferentie vereisen. Het toepassen van uitgebreide redenering voor alle vragen resulteert echter vaak in aanzienlijke computationele inefficiënties, vooral wanneer veel problemen eenvoudige oplossingen toelaten. Dit roept een open vraag op: Kunnen LLM's leren wanneer ze moeten nadenken? Om dit te beantwoorden, stellen we Thinkless voor, een leerbaar raamwerk dat een LLM in staat stelt om adaptief te kiezen tussen korte en lange redeneringen, gebaseerd op zowel de taakcomplexiteit als het vermogen van het model. Thinkless wordt getraind onder een reinforcement learning paradigma en maakt gebruik van twee controle-tokens, <short> voor beknopte antwoorden en <think> voor gedetailleerde redenering. De kern van onze methode is een Decoupled Group Relative Policy Optimization (DeGRPO) algoritme, dat het leerdoel van hybride redenering ontleedt in twee componenten: (1) een controle-token verlies dat de selectie van de redeneermodus beheerst, en (2) een antwoordverlies dat de nauwkeurigheid van de gegenereerde antwoorden verbetert. Deze ontkoppelde formulering maakt fijnmazige controle mogelijk over de bijdragen van elk doel, stabiliseert de training en voorkomt effectief het instorten dat wordt waargenomen bij standaard GRPO. Empirisch gezien is Thinkless op verschillende benchmarks zoals Minerva Algebra, MATH-500 en GSM8K in staat om het gebruik van lange-keten-denken met 50% - 90% te verminderen, waardoor de efficiëntie van Redenerende Taalmodellen aanzienlijk wordt verbeterd. De code is beschikbaar op https://github.com/VainF/Thinkless.
English
Reasoning Language Models, capable of extended chain-of-thought reasoning,
have demonstrated remarkable performance on tasks requiring complex logical
inference. However, applying elaborate reasoning for all queries often results
in substantial computational inefficiencies, particularly when many problems
admit straightforward solutions. This motivates an open question: Can LLMs
learn when to think? To answer this, we propose Thinkless, a learnable
framework that empowers an LLM to adaptively select between short-form and
long-form reasoning, based on both task complexity and the model's ability.
Thinkless is trained under a reinforcement learning paradigm and employs two
control tokens, <short> for concise responses and <think> for detailed
reasoning. At the core of our method is a Decoupled Group Relative Policy
Optimization (DeGRPO) algorithm, which decomposes the learning objective of
hybrid reasoning into two components: (1) a control token loss that governs the
selection of the reasoning mode, and (2) a response loss that improves the
accuracy of the generated answers. This decoupled formulation enables
fine-grained control over the contributions of each objective, stabilizing
training and effectively preventing collapse observed in vanilla GRPO.
Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and
GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% -
90%, significantly improving the efficiency of Reasoning Language Models. The
code is available at https://github.com/VainF/Thinkless