ARM: Modello di Ragionamento Adattivo
ARM: Adaptive Reasoning Model
May 26, 2025
Autori: Siye Wu, Jian Xie, Yikai Zhang, Aili Chen, Kai Zhang, Yu Su, Yanghua Xiao
cs.AI
Abstract
Mentre i modelli di ragionamento su larga scala dimostrano prestazioni solide su compiti complessi, mancano della capacità di adattare l'uso dei token di ragionamento in base alla difficoltà del task. Questo spesso porta al problema del "sovrapensiero" — un ragionamento eccessivo e non necessario — che, sebbene possa essere mitigato dall'intervento umano per controllare il budget di token, contraddice comunque l'obiettivo di ottenere un'IA completamente autonoma. In questo lavoro, proponiamo Adaptive Reasoning Model (ARM), un modello di ragionamento in grado di selezionare in modo adattivo i formati di ragionamento appropriati in base al task specifico. Questi formati includono tre opzioni efficienti — Risposta Diretta, CoT Breve e Codice — oltre a un formato più elaborato, CoT Lungo. Per addestrare ARM, introduciamo Ada-GRPO, un adattamento di Group Relative Policy Optimization (GRPO), che affronta il problema del collasso dei formati nel GRPO tradizionale. Ada-GRPO consente a ARM di raggiungere un'elevata efficienza nei token, riducendoli in media del 30% e fino al 70%, mantenendo prestazioni paragonabili al modello che si affida esclusivamente al CoT Lungo. Inoltre, non solo migliora l'efficienza dell'inferenza attraverso la riduzione della generazione di token, ma porta anche a un'accelerazione di 2x nell'addestramento. Oltre alla Modalità Adattiva predefinita, ARM supporta due modalità di ragionamento aggiuntive: 1) Modalità Guidata da Istruzioni, che consente agli utenti di specificare esplicitamente il formato di ragionamento tramite token speciali — ideale quando il formato appropriato è noto per un batch di task. 2) Modalità Guidata da Consenso, che aggrega gli output dei tre formati efficienti e ricorre al CoT Lungo in caso di disaccordo, privilegiando le prestazioni con un uso maggiore di token.
English
While large reasoning models demonstrate strong performance on complex tasks,
they lack the ability to adjust reasoning token usage based on task difficulty.
This often leads to the "overthinking" problem -- excessive and unnecessary
reasoning -- which, although potentially mitigated by human intervention to
control the token budget, still fundamentally contradicts the goal of achieving
fully autonomous AI. In this work, we propose Adaptive Reasoning Model (ARM), a
reasoning model capable of adaptively selecting appropriate reasoning formats
based on the task at hand. These formats include three efficient ones -- Direct
Answer, Short CoT, and Code -- as well as a more elaborate format, Long CoT. To
train ARM, we introduce Ada-GRPO, an adaptation of Group Relative Policy
Optimization (GRPO), which addresses the format collapse issue in traditional
GRPO. Ada-GRPO enables ARM to achieve high token efficiency, reducing tokens by
an average of 30%, and up to 70%, while maintaining performance comparable to
the model that relies solely on Long CoT. Furthermore, not only does it improve
inference efficiency through reduced token generation, but it also brings a 2x
speedup in training. In addition to the default Adaptive Mode, ARM supports two
additional reasoning modes: 1) Instruction-Guided Mode, which allows users to
explicitly specify the reasoning format via special tokens -- ideal when the
appropriate format is known for a batch of tasks. 2) Consensus-Guided Mode,
which aggregates the outputs of the three efficient formats and resorts to Long
CoT in case of disagreement, prioritizing performance with higher token usage.