ARES: Multimodale Adaptieve Redenering via Moeilijkheidsbewuste Token-Niveau Entropievorming
ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping
October 9, 2025
Auteurs: Shuang Chen, Yue Guo, Yimeng Ye, Shijue Huang, Wenbo Hu, Haoxi Li, Manyuan Zhang, Jiayu Chen, Song Guo, Nanyun Peng
cs.AI
Samenvatting
Recente vooruitgang in multimodale grote redeneermodellen (MLRMs) heeft hun vermogen om complexe tekstuele en visuele taken op te lossen aanzienlijk verbeterd. Deze modellen hebben echter de neiging om te veel na te denken over eenvoudige problemen, wat resulteert in onnodig uitgebreide redeneersporen, terwijl ze uitdagende problemen onvoldoende verkennen, wat leidt tot gemiste oplossingen. Om deze onbalans aan te pakken, stellen we ARES voor, een geïntegreerd open-source raamwerk voor adaptief redeneren dat dynamisch verkenningsinspanningen toewijst op basis van de taakmoeilijkheid. Onze aanpak is gemotiveerd door twee belangrijke empirische bevindingen: (i) hoewel enkelvoudige token-entropie ruis bevat, kunnen tokens met hoge venster-entropie (HWE) (token-niveau entropieën gemiddeld onder een verschuivend venster) betrouwbaar kritieke redeneermomenten vastleggen; en (ii) het verminderen van HWE-gebruik is gunstig voor eenvoudige problemen, terwijl het verhogen ervan essentieel is voor het oplossen van moeilijke problemen. Gebaseerd op deze inzichten introduceert ARES een tweefasig trainingspijplijn. In de Adaptieve Koude-Start fase cureren we multimodale en tekstuele data gepaard met redeneersporen van een lengte die evenredig is aan de probleemmoeilijkheid, waardoor het model een initieel bewustzijn van moeilijkheidsgraad krijgt. In de tweede fase ontwikkelen we Adaptieve Entropiebeleidsoptimalisatie (AEPO), dat HWE-tokens gebruikt als verkenningsprikkels om te beslissen wanneer te verkennen, en een hiërarchische entropiebeloning met dynamische KL-controle om te beslissen hoeveel te verkennen. Uitgebreide experimenten tonen aan dat ARES superieure prestaties en redeneerefficiëntie bereikt over diverse wiskundige, logische en multimodale benchmarks, terwijl het de kloof met toonaangevende commerciële systemen verkleint bij aanzienlijk lagere inferentiekosten.
English
Recent advances in multimodal large reasoning models (MLRMs) have
substantially improved their ability to solve complex textual and visual tasks.
However, these models tend to overthink on simple problems, producing
unnecessarily lengthy reasoning traces, while under-exploring on challenging
ones, leading to missed solutions. To address this imbalance, we propose ARES,
a unified open-source framework for adaptive reasoning that dynamically
allocates exploration effort based on task difficulty. Our approach is
motivated by two key empirical findings: (i) while single-token entropy is
noisy, high window-entropy (HWE) tokens (token-level entropies averaged under a
sliding window) can reliably capture reasoning-critical moments; and (ii)
reducing HWE usage benefits easy problems, while increasing it is essential for
solving hard ones. Building on these insights, ARES introduces a two-stage
training pipeline. In the Adaptive Cold-Start stage, we curate multimodal and
textual data paired with reasoning traces of length proportional to problem
difficulty, equipping the model with initial difficulty awareness. In the
second stage, we develop Adaptive Entropy Policy Optimization (AEPO), which
uses HWE tokens as exploration triggers to decide when to explore, and a
hierarchical entropy reward with dynamic KL control to decide how much to
explore. Extensive experiments demonstrate that ARES achieves superior
performance and reasoning efficiency across diverse mathematical, logical, and
multimodal benchmarks, while closing the gap to leading commercial systems
under significantly lower inference costs.