Thinkless: El modelo de lenguaje aprende cuándo pensar
Thinkless: LLM Learns When to Think
May 19, 2025
Autores: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
Resumen
Los modelos de lenguaje con capacidad de razonamiento, capaces de realizar cadenas de pensamiento extendidas, han demostrado un rendimiento notable en tareas que requieren inferencia lógica compleja. Sin embargo, aplicar un razonamiento elaborado para todas las consultas a menudo resulta en ineficiencias computacionales significativas, especialmente cuando muchos problemas admiten soluciones directas. Esto plantea una pregunta abierta: ¿Pueden los LLMs aprender cuándo pensar? Para responder a esto, proponemos Thinkless, un marco aprendible que permite a un LLM seleccionar de manera adaptativa entre un razonamiento breve y uno extenso, basándose tanto en la complejidad de la tarea como en la capacidad del modelo. Thinkless se entrena bajo un paradigma de aprendizaje por refuerzo y emplea dos tokens de control, <short> para respuestas concisas y <think> para un razonamiento detallado. En el núcleo de nuestro método se encuentra un algoritmo de Optimización de Política Relativa de Grupo Desacoplada (DeGRPO), que descompone el objetivo de aprendizaje del razonamiento híbrido en dos componentes: (1) una pérdida de token de control que gobierna la selección del modo de razonamiento, y (2) una pérdida de respuesta que mejora la precisión de las respuestas generadas. Esta formulación desacoplada permite un control detallado sobre las contribuciones de cada objetivo, estabilizando el entrenamiento y previniendo eficazmente el colapso observado en GRPO convencional. Empíricamente, en varios puntos de referencia como Minerva Algebra, MATH-500 y GSM8K, Thinkless logra reducir el uso de pensamiento de cadena larga entre un 50% y un 90%, mejorando significativamente la eficiencia de los modelos de lenguaje con capacidad de razonamiento. El código está disponible en https://github.com/VainF/Thinkless.
English
Reasoning Language Models, capable of extended chain-of-thought reasoning,
have demonstrated remarkable performance on tasks requiring complex logical
inference. However, applying elaborate reasoning for all queries often results
in substantial computational inefficiencies, particularly when many problems
admit straightforward solutions. This motivates an open question: Can LLMs
learn when to think? To answer this, we propose Thinkless, a learnable
framework that empowers an LLM to adaptively select between short-form and
long-form reasoning, based on both task complexity and the model's ability.
Thinkless is trained under a reinforcement learning paradigm and employs two
control tokens, <short> for concise responses and <think> for detailed
reasoning. At the core of our method is a Decoupled Group Relative Policy
Optimization (DeGRPO) algorithm, which decomposes the learning objective of
hybrid reasoning into two components: (1) a control token loss that governs the
selection of the reasoning mode, and (2) a response loss that improves the
accuracy of the generated answers. This decoupled formulation enables
fine-grained control over the contributions of each objective, stabilizing
training and effectively preventing collapse observed in vanilla GRPO.
Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and
GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% -
90%, significantly improving the efficiency of Reasoning Language Models. The
code is available at https://github.com/VainF/ThinklessSummary
AI-Generated Summary