ARM: Адаптивная Модель Рассуждений
ARM: Adaptive Reasoning Model
May 26, 2025
Авторы: Siye Wu, Jian Xie, Yikai Zhang, Aili Chen, Kai Zhang, Yu Su, Yanghua Xiao
cs.AI
Аннотация
Хотя крупные модели рассуждений демонстрируют высокую производительность на сложных задачах, они не способны адаптировать использование токенов рассуждений в зависимости от сложности задачи. Это часто приводит к проблеме "избыточного мышления" — чрезмерного и ненужного рассуждения, — которая, хотя и может быть частично устранена вмешательством человека для контроля бюджета токенов, всё же фундаментально противоречит цели достижения полностью автономного ИИ. В данной работе мы предлагаем модель адаптивного рассуждения (Adaptive Reasoning Model, ARM), способную адаптивно выбирать подходящие форматы рассуждений в зависимости от задачи. Эти форматы включают три эффективных — прямой ответ (Direct Answer), краткая цепочка рассуждений (Short CoT) и код (Code) — а также более детализированный формат, длинная цепочка рассуждений (Long CoT). Для обучения ARM мы представляем Ada-GRPO, адаптацию метода оптимизации групповой относительной политики (Group Relative Policy Optimization, GRPO), которая устраняет проблему коллапса форматов в традиционном GRPO. Ada-GRPO позволяет ARM достичь высокой эффективности использования токенов, сокращая их количество в среднем на 30%, а в некоторых случаях до 70%, при этом сохраняя производительность, сопоставимую с моделью, использующей исключительно Long CoT. Более того, она не только повышает эффективность вывода за счёт сокращения генерации токенов, но и ускоряет обучение в 2 раза. Помимо режима по умолчанию (Adaptive Mode), ARM поддерживает два дополнительных режима рассуждений: 1) Инструктивно-управляемый режим (Instruction-Guided Mode), который позволяет пользователям явно указывать формат рассуждений с помощью специальных токенов — идеально, когда подходящий формат известен для группы задач. 2) Режим, управляемый консенсусом (Consensus-Guided Mode), который агрегирует результаты трёх эффективных форматов и прибегает к Long CoT в случае разногласий, отдавая приоритет производительности при более высоком использовании токенов.
English
While large reasoning models demonstrate strong performance on complex tasks,
they lack the ability to adjust reasoning token usage based on task difficulty.
This often leads to the "overthinking" problem -- excessive and unnecessary
reasoning -- which, although potentially mitigated by human intervention to
control the token budget, still fundamentally contradicts the goal of achieving
fully autonomous AI. In this work, we propose Adaptive Reasoning Model (ARM), a
reasoning model capable of adaptively selecting appropriate reasoning formats
based on the task at hand. These formats include three efficient ones -- Direct
Answer, Short CoT, and Code -- as well as a more elaborate format, Long CoT. To
train ARM, we introduce Ada-GRPO, an adaptation of Group Relative Policy
Optimization (GRPO), which addresses the format collapse issue in traditional
GRPO. Ada-GRPO enables ARM to achieve high token efficiency, reducing tokens by
an average of 30%, and up to 70%, while maintaining performance comparable to
the model that relies solely on Long CoT. Furthermore, not only does it improve
inference efficiency through reduced token generation, but it also brings a 2x
speedup in training. In addition to the default Adaptive Mode, ARM supports two
additional reasoning modes: 1) Instruction-Guided Mode, which allows users to
explicitly specify the reasoning format via special tokens -- ideal when the
appropriate format is known for a batch of tasks. 2) Consensus-Guided Mode,
which aggregates the outputs of the three efficient formats and resorts to Long
CoT in case of disagreement, prioritizing performance with higher token usage.Summary
AI-Generated Summary