Thinkless: O Modelo de Linguagem Aprende Quando Pensar
Thinkless: LLM Learns When to Think
May 19, 2025
Autores: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
Resumo
Modelos de Linguagem de Raciocínio, capazes de extensas cadeias de pensamento, demonstraram desempenho notável em tarefas que exigem inferência lógica complexa. No entanto, aplicar raciocínios elaborados para todas as consultas frequentemente resulta em ineficiências computacionais significativas, especialmente quando muitos problemas admitem soluções diretas. Isso motiva uma questão aberta: Os LLMs podem aprender quando pensar? Para responder a isso, propomos o Thinkless, uma estrutura aprendível que capacita um LLM a selecionar adaptativamente entre raciocínios curtos e longos, com base na complexidade da tarefa e na capacidade do modelo. O Thinkless é treinado sob um paradigma de aprendizado por reforço e emprega dois tokens de controle, <short> para respostas concisas e <think> para raciocínios detalhados. No cerne de nosso método está um algoritmo de Otimização de Política Relativa de Grupo Desacoplado (DeGRPO), que decompõe o objetivo de aprendizado de raciocínio híbrido em dois componentes: (1) uma perda de token de controle que governa a seleção do modo de raciocínio, e (2) uma perda de resposta que melhora a precisão das respostas geradas. Essa formulação desacoplada permite um controle refinado sobre as contribuições de cada objetivo, estabilizando o treinamento e prevenindo efetivamente o colapso observado no GRPO convencional. Empiricamente, em vários benchmarks como Minerva Algebra, MATH-500 e GSM8K, o Thinkless consegue reduzir o uso de pensamentos de cadeia longa em 50% a 90%, melhorando significativamente a eficiência dos Modelos de Linguagem de Raciocínio. O código está disponível em https://github.com/VainF/Thinkless.
English
Reasoning Language Models, capable of extended chain-of-thought reasoning,
have demonstrated remarkable performance on tasks requiring complex logical
inference. However, applying elaborate reasoning for all queries often results
in substantial computational inefficiencies, particularly when many problems
admit straightforward solutions. This motivates an open question: Can LLMs
learn when to think? To answer this, we propose Thinkless, a learnable
framework that empowers an LLM to adaptively select between short-form and
long-form reasoning, based on both task complexity and the model's ability.
Thinkless is trained under a reinforcement learning paradigm and employs two
control tokens, <short> for concise responses and <think> for detailed
reasoning. At the core of our method is a Decoupled Group Relative Policy
Optimization (DeGRPO) algorithm, which decomposes the learning objective of
hybrid reasoning into two components: (1) a control token loss that governs the
selection of the reasoning mode, and (2) a response loss that improves the
accuracy of the generated answers. This decoupled formulation enables
fine-grained control over the contributions of each objective, stabilizing
training and effectively preventing collapse observed in vanilla GRPO.
Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and
GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% -
90%, significantly improving the efficiency of Reasoning Language Models. The
code is available at https://github.com/VainF/Thinkless