ARM : Modèle de Raisonnement Adaptatif
ARM: Adaptive Reasoning Model
May 26, 2025
papers.authors: Siye Wu, Jian Xie, Yikai Zhang, Aili Chen, Kai Zhang, Yu Su, Yanghua Xiao
cs.AI
papers.abstract
Bien que les grands modèles de raisonnement démontrent des performances solides sur des tâches complexes, ils manquent de la capacité à ajuster l'utilisation des tokens de raisonnement en fonction de la difficulté de la tâche. Cela conduit souvent au problème de "sur-réflexion" -- un raisonnement excessif et inutile -- qui, bien que potentiellement atténué par une intervention humaine pour contrôler le budget de tokens, contredit fondamentalement l'objectif d'atteindre une IA pleinement autonome. Dans ce travail, nous proposons le modèle de raisonnement adaptatif (Adaptive Reasoning Model, ARM), un modèle de raisonnement capable de sélectionner de manière adaptative les formats de raisonnement appropriés en fonction de la tâche à accomplir. Ces formats incluent trois formats efficaces -- Réponse Directe, CoT Court et Code -- ainsi qu'un format plus élaboré, CoT Long. Pour entraîner ARM, nous introduisons Ada-GRPO, une adaptation de l'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO), qui résout le problème d'effondrement des formats dans le GRPO traditionnel. Ada-GRPO permet à ARM d'atteindre une grande efficacité en termes de tokens, réduisant les tokens en moyenne de 30 %, et jusqu'à 70 %, tout en maintenant des performances comparables au modèle qui repose uniquement sur le CoT Long. De plus, non seulement il améliore l'efficacité de l'inférence grâce à une génération réduite de tokens, mais il apporte également une accélération de 2x lors de l'entraînement. En plus du mode adaptatif par défaut, ARM prend en charge deux modes de raisonnement supplémentaires : 1) le mode guidé par instruction, qui permet aux utilisateurs de spécifier explicitement le format de raisonnement via des tokens spéciaux -- idéal lorsque le format approprié est connu pour un lot de tâches. 2) le mode guidé par consensus, qui agrège les sorties des trois formats efficaces et recourt au CoT Long en cas de désaccord, privilégiant la performance avec une utilisation plus élevée de tokens.
English
While large reasoning models demonstrate strong performance on complex tasks,
they lack the ability to adjust reasoning token usage based on task difficulty.
This often leads to the "overthinking" problem -- excessive and unnecessary
reasoning -- which, although potentially mitigated by human intervention to
control the token budget, still fundamentally contradicts the goal of achieving
fully autonomous AI. In this work, we propose Adaptive Reasoning Model (ARM), a
reasoning model capable of adaptively selecting appropriate reasoning formats
based on the task at hand. These formats include three efficient ones -- Direct
Answer, Short CoT, and Code -- as well as a more elaborate format, Long CoT. To
train ARM, we introduce Ada-GRPO, an adaptation of Group Relative Policy
Optimization (GRPO), which addresses the format collapse issue in traditional
GRPO. Ada-GRPO enables ARM to achieve high token efficiency, reducing tokens by
an average of 30%, and up to 70%, while maintaining performance comparable to
the model that relies solely on Long CoT. Furthermore, not only does it improve
inference efficiency through reduced token generation, but it also brings a 2x
speedup in training. In addition to the default Adaptive Mode, ARM supports two
additional reasoning modes: 1) Instruction-Guided Mode, which allows users to
explicitly specify the reasoning format via special tokens -- ideal when the
appropriate format is known for a batch of tasks. 2) Consensus-Guided Mode,
which aggregates the outputs of the three efficient formats and resorts to Long
CoT in case of disagreement, prioritizing performance with higher token usage.