ARM: Adaptives Reasoning-Modell
ARM: Adaptive Reasoning Model
May 26, 2025
Autoren: Siye Wu, Jian Xie, Yikai Zhang, Aili Chen, Kai Zhang, Yu Su, Yanghua Xiao
cs.AI
Zusammenfassung
Während große Reasoning-Modelle eine starke Leistung bei komplexen Aufgaben zeigen, fehlt ihnen die Fähigkeit, die Verwendung von Reasoning-Tokens basierend auf der Aufgabenschwierigkeit anzupassen. Dies führt oft zum „Overthinking“-Problem – übermäßiges und unnötiges Reasoning – das, obwohl es durch menschliches Eingreifen zur Kontrolle des Token-Budgets potenziell gemildert werden kann, dennoch grundsätzlich dem Ziel der vollständig autonomen KI widerspricht. In dieser Arbeit schlagen wir das Adaptive Reasoning Model (ARM) vor, ein Reasoning-Modell, das in der Lage ist, basierend auf der jeweiligen Aufgabe geeignete Reasoning-Formate adaptiv auszuwählen. Diese Formate umfassen drei effiziente – Direkte Antwort, Kurze CoT und Code – sowie ein elaborierteres Format, Lange CoT. Um ARM zu trainieren, führen wir Ada-GRPO ein, eine Anpassung des Group Relative Policy Optimization (GRPO), das das Problem des Formatkollapses im traditionellen GRPO adressiert. Ada-GRPO ermöglicht es ARM, eine hohe Token-Effizienz zu erreichen, wobei die Tokens im Durchschnitt um 30 % und bis zu 70 % reduziert werden, während die Leistung vergleichbar mit dem Modell bleibt, das ausschließlich auf Lange CoT angewiesen ist. Darüber hinaus verbessert es nicht nur die Inferenzeffizienz durch reduzierte Token-Generierung, sondern bringt auch eine 2-fache Beschleunigung im Training. Neben dem standardmäßigen Adaptiven Modus unterstützt ARM zwei zusätzliche Reasoning-Modi: 1) Instruktionsgesteuerter Modus, der es Benutzern ermöglicht, das Reasoning-Format explizit über spezielle Tokens anzugeben – ideal, wenn das geeignete Format für eine Reihe von Aufgaben bekannt ist. 2) Konsensgesteuerter Modus, der die Ausgaben der drei effizienten Formate aggregiert und im Falle von Unstimmigkeiten auf Lange CoT zurückgreift, wobei die Leistung mit höherem Token-Verbrauch priorisiert wird.
English
While large reasoning models demonstrate strong performance on complex tasks,
they lack the ability to adjust reasoning token usage based on task difficulty.
This often leads to the "overthinking" problem -- excessive and unnecessary
reasoning -- which, although potentially mitigated by human intervention to
control the token budget, still fundamentally contradicts the goal of achieving
fully autonomous AI. In this work, we propose Adaptive Reasoning Model (ARM), a
reasoning model capable of adaptively selecting appropriate reasoning formats
based on the task at hand. These formats include three efficient ones -- Direct
Answer, Short CoT, and Code -- as well as a more elaborate format, Long CoT. To
train ARM, we introduce Ada-GRPO, an adaptation of Group Relative Policy
Optimization (GRPO), which addresses the format collapse issue in traditional
GRPO. Ada-GRPO enables ARM to achieve high token efficiency, reducing tokens by
an average of 30%, and up to 70%, while maintaining performance comparable to
the model that relies solely on Long CoT. Furthermore, not only does it improve
inference efficiency through reduced token generation, but it also brings a 2x
speedup in training. In addition to the default Adaptive Mode, ARM supports two
additional reasoning modes: 1) Instruction-Guided Mode, which allows users to
explicitly specify the reasoning format via special tokens -- ideal when the
appropriate format is known for a batch of tasks. 2) Consensus-Guided Mode,
which aggregates the outputs of the three efficient formats and resorts to Long
CoT in case of disagreement, prioritizing performance with higher token usage.Summary
AI-Generated Summary