Thinkless: El modelo de lenguaje aprende cuándo pensar

Resumen

Los modelos de lenguaje con capacidad de razonamiento, capaces de realizar cadenas de pensamiento extendidas, han demostrado un rendimiento notable en tareas que requieren inferencia lógica compleja. Sin embargo, aplicar un razonamiento elaborado para todas las consultas a menudo resulta en ineficiencias computacionales significativas, especialmente cuando muchos problemas admiten soluciones directas. Esto plantea una pregunta abierta: ¿Pueden los LLMs aprender cuándo pensar? Para responder a esto, proponemos Thinkless, un marco aprendible que permite a un LLM seleccionar de manera adaptativa entre un razonamiento breve y uno extenso, basándose tanto en la complejidad de la tarea como en la capacidad del modelo. Thinkless se entrena bajo un paradigma de aprendizaje por refuerzo y emplea dos tokens de control, <short> para respuestas concisas y <think> para un razonamiento detallado. En el núcleo de nuestro método se encuentra un algoritmo de Optimización de Política Relativa de Grupo Desacoplada (DeGRPO), que descompone el objetivo de aprendizaje del razonamiento híbrido en dos componentes: (1) una pérdida de token de control que gobierna la selección del modo de razonamiento, y (2) una pérdida de respuesta que mejora la precisión de las respuestas generadas. Esta formulación desacoplada permite un control detallado sobre las contribuciones de cada objetivo, estabilizando el entrenamiento y previniendo eficazmente el colapso observado en GRPO convencional. Empíricamente, en varios puntos de referencia como Minerva Algebra, MATH-500 y GSM8K, Thinkless logra reducir el uso de pensamiento de cadena larga entre un 50% y un 90%, mejorando significativamente la eficiencia de los modelos de lenguaje con capacidad de razonamiento. El código está disponible en https://github.com/VainF/Thinkless.

English

Reasoning Language Models, capable of extended chain-of-thought reasoning, have demonstrated remarkable performance on tasks requiring complex logical inference. However, applying elaborate reasoning for all queries often results in substantial computational inefficiencies, particularly when many problems admit straightforward solutions. This motivates an open question: Can LLMs learn when to think? To answer this, we propose Thinkless, a learnable framework that empowers an LLM to adaptively select between short-form and long-form reasoning, based on both task complexity and the model's ability. Thinkless is trained under a reinforcement learning paradigm and employs two control tokens, <short> for concise responses and <think> for detailed reasoning. At the core of our method is a Decoupled Group Relative Policy Optimization (DeGRPO) algorithm, which decomposes the learning objective of hybrid reasoning into two components: (1) a control token loss that governs the selection of the reasoning mode, and (2) a response loss that improves the accuracy of the generated answers. This decoupled formulation enables fine-grained control over the contributions of each objective, stabilizing training and effectively preventing collapse observed in vanilla GRPO. Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% - 90%, significantly improving the efficiency of Reasoning Language Models. The code is available at https://github.com/VainF/Thinkless

Thinkless: El modelo de lenguaje aprende cuándo pensar

Thinkless: LLM Learns When to Think

Resumen

Support