Thinkless: LLM Impara Quando Pensare
Thinkless: LLM Learns When to Think
May 19, 2025
Autori: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
Abstract
I modelli linguistici di ragionamento, capaci di ragionamenti estesi a catena di pensiero, hanno dimostrato prestazioni notevoli in compiti che richiedono inferenze logiche complesse. Tuttavia, applicare ragionamenti elaborati per tutte le query spesso si traduce in inefficienze computazionali significative, specialmente quando molti problemi ammettono soluzioni dirette. Ciò solleva una questione aperta: i modelli linguistici possono imparare quando pensare? Per rispondere a questo, proponiamo Thinkless, un framework apprendibile che consente a un modello linguistico di selezionare in modo adattivo tra ragionamenti brevi e lunghi, basandosi sia sulla complessità del compito che sulle capacità del modello. Thinkless è addestrato sotto un paradigma di apprendimento per rinforzo e impiega due token di controllo, <short> per risposte concise e <think> per ragionamenti dettagliati. Al centro del nostro metodo c'è un algoritmo di Ottimizzazione della Politica Relativa Decupla di Gruppo (DeGRPO), che scompone l'obiettivo di apprendimento del ragionamento ibrido in due componenti: (1) una perdita del token di controllo che governa la selezione della modalità di ragionamento, e (2) una perdita della risposta che migliora l'accuratezza delle risposte generate. Questa formulazione decupla consente un controllo fine sui contributi di ciascun obiettivo, stabilizzando l'addestramento e prevenendo efficacemente il collasso osservato nel GRPO standard. Empiricamente, su diversi benchmark come Minerva Algebra, MATH-500 e GSM8K, Thinkless è in grado di ridurre l'uso del pensiero a catena lunga del 50% - 90%, migliorando significativamente l'efficienza dei modelli linguistici di ragionamento. Il codice è disponibile all'indirizzo https://github.com/VainF/Thinkless.
English
Reasoning Language Models, capable of extended chain-of-thought reasoning,
have demonstrated remarkable performance on tasks requiring complex logical
inference. However, applying elaborate reasoning for all queries often results
in substantial computational inefficiencies, particularly when many problems
admit straightforward solutions. This motivates an open question: Can LLMs
learn when to think? To answer this, we propose Thinkless, a learnable
framework that empowers an LLM to adaptively select between short-form and
long-form reasoning, based on both task complexity and the model's ability.
Thinkless is trained under a reinforcement learning paradigm and employs two
control tokens, <short> for concise responses and <think> for detailed
reasoning. At the core of our method is a Decoupled Group Relative Policy
Optimization (DeGRPO) algorithm, which decomposes the learning objective of
hybrid reasoning into two components: (1) a control token loss that governs the
selection of the reasoning mode, and (2) a response loss that improves the
accuracy of the generated answers. This decoupled formulation enables
fine-grained control over the contributions of each objective, stabilizing
training and effectively preventing collapse observed in vanilla GRPO.
Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and
GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% -
90%, significantly improving the efficiency of Reasoning Language Models. The
code is available at https://github.com/VainF/Thinkless