ARM: Modelo de Raciocínio Adaptativo
ARM: Adaptive Reasoning Model
May 26, 2025
Autores: Siye Wu, Jian Xie, Yikai Zhang, Aili Chen, Kai Zhang, Yu Su, Yanghua Xiao
cs.AI
Resumo
Embora modelos de raciocínio de grande escala demonstrem um desempenho robusto em tarefas complexas, eles carecem da capacidade de ajustar o uso de tokens de raciocínio com base na dificuldade da tarefa. Isso frequentemente leva ao problema de "overthinking" — raciocínio excessivo e desnecessário — que, embora possa ser mitigado por intervenção humana para controlar o orçamento de tokens, ainda contradiz fundamentalmente o objetivo de alcançar uma IA totalmente autônoma. Neste trabalho, propomos o Modelo de Raciocínio Adaptativo (ARM), um modelo de raciocínio capaz de selecionar adaptativamente formatos de raciocínio apropriados com base na tarefa em questão. Esses formatos incluem três eficientes — Resposta Direta, CoT Curto e Código — além de um formato mais elaborado, o CoT Longo. Para treinar o ARM, introduzimos o Ada-GRPO, uma adaptação do Group Relative Policy Optimization (GRPO), que resolve o problema de colapso de formato no GRPO tradicional. O Ada-GRPO permite que o ARM alcance alta eficiência de tokens, reduzindo-os em média 30%, e até 70%, enquanto mantém um desempenho comparável ao modelo que depende exclusivamente do CoT Longo. Além disso, ele não apenas melhora a eficiência de inferência por meio da redução na geração de tokens, mas também traz uma aceleração de 2x no treinamento. Além do Modo Adaptativo padrão, o ARM suporta dois modos adicionais de raciocínio: 1) Modo Orientado por Instrução, que permite aos usuários especificar explicitamente o formato de raciocínio por meio de tokens especiais — ideal quando o formato apropriado é conhecido para um lote de tarefas. 2) Modo Orientado por Consenso, que agrega as saídas dos três formatos eficientes e recorre ao CoT Longo em caso de discordância, priorizando o desempenho com maior uso de tokens.
English
While large reasoning models demonstrate strong performance on complex tasks,
they lack the ability to adjust reasoning token usage based on task difficulty.
This often leads to the "overthinking" problem -- excessive and unnecessary
reasoning -- which, although potentially mitigated by human intervention to
control the token budget, still fundamentally contradicts the goal of achieving
fully autonomous AI. In this work, we propose Adaptive Reasoning Model (ARM), a
reasoning model capable of adaptively selecting appropriate reasoning formats
based on the task at hand. These formats include three efficient ones -- Direct
Answer, Short CoT, and Code -- as well as a more elaborate format, Long CoT. To
train ARM, we introduce Ada-GRPO, an adaptation of Group Relative Policy
Optimization (GRPO), which addresses the format collapse issue in traditional
GRPO. Ada-GRPO enables ARM to achieve high token efficiency, reducing tokens by
an average of 30%, and up to 70%, while maintaining performance comparable to
the model that relies solely on Long CoT. Furthermore, not only does it improve
inference efficiency through reduced token generation, but it also brings a 2x
speedup in training. In addition to the default Adaptive Mode, ARM supports two
additional reasoning modes: 1) Instruction-Guided Mode, which allows users to
explicitly specify the reasoning format via special tokens -- ideal when the
appropriate format is known for a batch of tasks. 2) Consensus-Guided Mode,
which aggregates the outputs of the three efficient formats and resorts to Long
CoT in case of disagreement, prioritizing performance with higher token usage.