Thinkless : Les LLM apprennent quand réfléchir
Thinkless: LLM Learns When to Think
May 19, 2025
Auteurs: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
Résumé
Les modèles de langage à raisonnement, capables de raisonnements en chaîne de pensée étendus, ont démontré des performances remarquables sur des tâches nécessitant une inférence logique complexe. Cependant, l'application d'un raisonnement élaboré pour toutes les requêtes entraîne souvent des inefficacités computationnelles substantielles, en particulier lorsque de nombreux problèmes admettent des solutions simples. Cela soulève une question ouverte : Les LLM peuvent-ils apprendre quand réfléchir ? Pour y répondre, nous proposons Thinkless, un cadre apprenable qui permet à un LLM de choisir de manière adaptative entre un raisonnement court et un raisonnement long, en fonction de la complexité de la tâche et des capacités du modèle. Thinkless est entraîné selon un paradigme d'apprentissage par renforcement et utilise deux jetons de contrôle, <short> pour des réponses concises et <think> pour un raisonnement détaillé. Au cœur de notre méthode se trouve un algorithme d'Optimisation de Politique Relative par Groupes Découplés (DeGRPO), qui décompose l'objectif d'apprentissage du raisonnement hybride en deux composantes : (1) une perte sur les jetons de contrôle qui régit la sélection du mode de raisonnement, et (2) une perte sur la réponse qui améliore la précision des réponses générées. Cette formulation découplée permet un contrôle fin des contributions de chaque objectif, stabilisant l'entraînement et prévenant efficacement l'effondrement observé dans le GRPO classique. Empiriquement, sur plusieurs benchmarks tels que Minerva Algebra, MATH-500 et GSM8K, Thinkless est capable de réduire l'utilisation de la pensée en chaîne longue de 50% à 90%, améliorant significativement l'efficacité des modèles de langage à raisonnement. Le code est disponible à l'adresse https://github.com/VainF/Thinkless.
English
Reasoning Language Models, capable of extended chain-of-thought reasoning,
have demonstrated remarkable performance on tasks requiring complex logical
inference. However, applying elaborate reasoning for all queries often results
in substantial computational inefficiencies, particularly when many problems
admit straightforward solutions. This motivates an open question: Can LLMs
learn when to think? To answer this, we propose Thinkless, a learnable
framework that empowers an LLM to adaptively select between short-form and
long-form reasoning, based on both task complexity and the model's ability.
Thinkless is trained under a reinforcement learning paradigm and employs two
control tokens, <short> for concise responses and <think> for detailed
reasoning. At the core of our method is a Decoupled Group Relative Policy
Optimization (DeGRPO) algorithm, which decomposes the learning objective of
hybrid reasoning into two components: (1) a control token loss that governs the
selection of the reasoning mode, and (2) a response loss that improves the
accuracy of the generated answers. This decoupled formulation enables
fine-grained control over the contributions of each objective, stabilizing
training and effectively preventing collapse observed in vanilla GRPO.
Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and
GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% -
90%, significantly improving the efficiency of Reasoning Language Models. The
code is available at https://github.com/VainF/Thinkless