Thinkless: ИИ учится, когда думать
Thinkless: LLM Learns When to Think
May 19, 2025
Авторы: Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
Аннотация
Языковые модели, способные к расширенному цепочечному рассуждению, продемонстрировали выдающиеся результаты в задачах, требующих сложного логического вывода. Однако применение детализированного рассуждения для всех запросов часто приводит к значительным вычислительным неэффективностям, особенно когда многие задачи допускают простые решения. Это поднимает важный вопрос: могут ли языковые модели научиться определять, когда нужно "думать"? Чтобы ответить на него, мы предлагаем Thinkless — обучаемую структуру, которая позволяет языковой модели адаптивно выбирать между кратким и развернутым рассуждением, основываясь на сложности задачи и способностях модели. Thinkless обучается в рамках парадигмы обучения с подкреплением и использует два управляющих токена: <short> для кратких ответов и <think> для детализированного рассуждения. В основе нашего метода лежит алгоритм Decoupled Group Relative Policy Optimization (DeGRPO), который разделяет цель обучения гибридного рассуждения на две составляющие: (1) потерю на управляющих токенах, которая регулирует выбор режима рассуждения, и (2) потерю на ответах, которая повышает точность генерируемых решений. Такая декомпозиция позволяет тонко контролировать вклад каждой цели, стабилизируя обучение и эффективно предотвращая коллапс, наблюдаемый в стандартном GRPO. Экспериментально, на нескольких бенчмарках, таких как Minerva Algebra, MATH-500 и GSM8K, Thinkless смог сократить использование длинных цепочек рассуждений на 50–90%, значительно повысив эффективность языковых моделей с рассуждениями. Код доступен по адресу https://github.com/VainF/Thinkless.
English
Reasoning Language Models, capable of extended chain-of-thought reasoning,
have demonstrated remarkable performance on tasks requiring complex logical
inference. However, applying elaborate reasoning for all queries often results
in substantial computational inefficiencies, particularly when many problems
admit straightforward solutions. This motivates an open question: Can LLMs
learn when to think? To answer this, we propose Thinkless, a learnable
framework that empowers an LLM to adaptively select between short-form and
long-form reasoning, based on both task complexity and the model's ability.
Thinkless is trained under a reinforcement learning paradigm and employs two
control tokens, <short> for concise responses and <think> for detailed
reasoning. At the core of our method is a Decoupled Group Relative Policy
Optimization (DeGRPO) algorithm, which decomposes the learning objective of
hybrid reasoning into two components: (1) a control token loss that governs the
selection of the reasoning mode, and (2) a response loss that improves the
accuracy of the generated answers. This decoupled formulation enables
fine-grained control over the contributions of each objective, stabilizing
training and effectively preventing collapse observed in vanilla GRPO.
Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and
GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% -
90%, significantly improving the efficiency of Reasoning Language Models. The
code is available at https://github.com/VainF/ThinklessSummary
AI-Generated Summary