ARM: Modelo de Razonamiento Adaptativo
ARM: Adaptive Reasoning Model
May 26, 2025
Autores: Siye Wu, Jian Xie, Yikai Zhang, Aili Chen, Kai Zhang, Yu Su, Yanghua Xiao
cs.AI
Resumen
Si bien los modelos de razonamiento a gran escala demuestran un rendimiento sólido en tareas complejas, carecen de la capacidad de ajustar el uso de tokens de razonamiento según la dificultad de la tarea. Esto a menudo conduce al problema del "sobrerazonamiento" —un razonamiento excesivo e innecesario— que, aunque podría mitigarse mediante la intervención humana para controlar el presupuesto de tokens, sigue contradiciendo fundamentalmente el objetivo de lograr una IA completamente autónoma. En este trabajo, proponemos el Modelo de Razonamiento Adaptativo (ARM, por sus siglas en inglés), un modelo de razonamiento capaz de seleccionar de manera adaptativa formatos de razonamiento apropiados según la tarea en cuestión. Estos formatos incluyen tres eficientes —Respuesta Directa, CoT Corto y Código— así como un formato más elaborado, CoT Largo. Para entrenar ARM, introducimos Ada-GRPO, una adaptación de la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés), que aborda el problema del colapso de formatos en GRPO tradicional. Ada-GRPO permite que ARM logre una alta eficiencia en el uso de tokens, reduciéndolos en un promedio del 30% y hasta un 70%, mientras mantiene un rendimiento comparable al modelo que depende exclusivamente de CoT Largo. Además, no solo mejora la eficiencia en la inferencia al reducir la generación de tokens, sino que también acelera el entrenamiento en un factor de 2x. Además del Modo Adaptativo predeterminado, ARM admite dos modos de razonamiento adicionales: 1) Modo Guiado por Instrucciones, que permite a los usuarios especificar explícitamente el formato de razonamiento mediante tokens especiales —ideal cuando se conoce el formato apropiado para un lote de tareas. 2) Modo Guiado por Consenso, que agrega las salidas de los tres formatos eficientes y recurre a CoT Largo en caso de desacuerdo, priorizando el rendimiento con un mayor uso de tokens.
English
While large reasoning models demonstrate strong performance on complex tasks,
they lack the ability to adjust reasoning token usage based on task difficulty.
This often leads to the "overthinking" problem -- excessive and unnecessary
reasoning -- which, although potentially mitigated by human intervention to
control the token budget, still fundamentally contradicts the goal of achieving
fully autonomous AI. In this work, we propose Adaptive Reasoning Model (ARM), a
reasoning model capable of adaptively selecting appropriate reasoning formats
based on the task at hand. These formats include three efficient ones -- Direct
Answer, Short CoT, and Code -- as well as a more elaborate format, Long CoT. To
train ARM, we introduce Ada-GRPO, an adaptation of Group Relative Policy
Optimization (GRPO), which addresses the format collapse issue in traditional
GRPO. Ada-GRPO enables ARM to achieve high token efficiency, reducing tokens by
an average of 30%, and up to 70%, while maintaining performance comparable to
the model that relies solely on Long CoT. Furthermore, not only does it improve
inference efficiency through reduced token generation, but it also brings a 2x
speedup in training. In addition to the default Adaptive Mode, ARM supports two
additional reasoning modes: 1) Instruction-Guided Mode, which allows users to
explicitly specify the reasoning format via special tokens -- ideal when the
appropriate format is known for a batch of tasks. 2) Consensus-Guided Mode,
which aggregates the outputs of the three efficient formats and resorts to Long
CoT in case of disagreement, prioritizing performance with higher token usage.Summary
AI-Generated Summary