ARM : Modèle de Raisonnement Adaptatif

papers.abstract

Bien que les grands modèles de raisonnement démontrent des performances solides sur des tâches complexes, ils manquent de la capacité à ajuster l'utilisation des tokens de raisonnement en fonction de la difficulté de la tâche. Cela conduit souvent au problème de "sur-réflexion" -- un raisonnement excessif et inutile -- qui, bien que potentiellement atténué par une intervention humaine pour contrôler le budget de tokens, contredit fondamentalement l'objectif d'atteindre une IA pleinement autonome. Dans ce travail, nous proposons le modèle de raisonnement adaptatif (Adaptive Reasoning Model, ARM), un modèle de raisonnement capable de sélectionner de manière adaptative les formats de raisonnement appropriés en fonction de la tâche à accomplir. Ces formats incluent trois formats efficaces -- Réponse Directe, CoT Court et Code -- ainsi qu'un format plus élaboré, CoT Long. Pour entraîner ARM, nous introduisons Ada-GRPO, une adaptation de l'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO), qui résout le problème d'effondrement des formats dans le GRPO traditionnel. Ada-GRPO permet à ARM d'atteindre une grande efficacité en termes de tokens, réduisant les tokens en moyenne de 30 %, et jusqu'à 70 %, tout en maintenant des performances comparables au modèle qui repose uniquement sur le CoT Long. De plus, non seulement il améliore l'efficacité de l'inférence grâce à une génération réduite de tokens, mais il apporte également une accélération de 2x lors de l'entraînement. En plus du mode adaptatif par défaut, ARM prend en charge deux modes de raisonnement supplémentaires : 1) le mode guidé par instruction, qui permet aux utilisateurs de spécifier explicitement le format de raisonnement via des tokens spéciaux -- idéal lorsque le format approprié est connu pour un lot de tâches. 2) le mode guidé par consensus, qui agrège les sorties des trois formats efficaces et recourt au CoT Long en cas de désaccord, privilégiant la performance avec une utilisation plus élevée de tokens.

English

While large reasoning models demonstrate strong performance on complex tasks, they lack the ability to adjust reasoning token usage based on task difficulty. This often leads to the "overthinking" problem -- excessive and unnecessary reasoning -- which, although potentially mitigated by human intervention to control the token budget, still fundamentally contradicts the goal of achieving fully autonomous AI. In this work, we propose Adaptive Reasoning Model (ARM), a reasoning model capable of adaptively selecting appropriate reasoning formats based on the task at hand. These formats include three efficient ones -- Direct Answer, Short CoT, and Code -- as well as a more elaborate format, Long CoT. To train ARM, we introduce Ada-GRPO, an adaptation of Group Relative Policy Optimization (GRPO), which addresses the format collapse issue in traditional GRPO. Ada-GRPO enables ARM to achieve high token efficiency, reducing tokens by an average of 30%, and up to 70%, while maintaining performance comparable to the model that relies solely on Long CoT. Furthermore, not only does it improve inference efficiency through reduced token generation, but it also brings a 2x speedup in training. In addition to the default Adaptive Mode, ARM supports two additional reasoning modes: 1) Instruction-Guided Mode, which allows users to explicitly specify the reasoning format via special tokens -- ideal when the appropriate format is known for a batch of tasks. 2) Consensus-Guided Mode, which aggregates the outputs of the three efficient formats and resorts to Long CoT in case of disagreement, prioritizing performance with higher token usage.

ARM : Modèle de Raisonnement Adaptatif

ARM: Adaptive Reasoning Model

papers.abstract

Support