ARES : Raisonnement Adaptatif Multimodal via un Façonnage de l'Entropie au Niveau des Tokens Conscient de la Difficulté
ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping
October 9, 2025
papers.authors: Shuang Chen, Yue Guo, Yimeng Ye, Shijue Huang, Wenbo Hu, Haoxi Li, Manyuan Zhang, Jiayu Chen, Song Guo, Nanyun Peng
cs.AI
papers.abstract
Les récentes avancées dans les modèles de raisonnement multimodal à grande échelle (MLRMs) ont considérablement amélioré leur capacité à résoudre des tâches complexes, tant textuelles que visuelles. Cependant, ces modèles ont tendance à trop réfléchir sur des problèmes simples, produisant des traces de raisonnement inutilement longues, tout en explorant insuffisamment les problèmes difficiles, ce qui conduit à des solutions manquées. Pour remédier à ce déséquilibre, nous proposons ARES, un cadre unifié open-source pour le raisonnement adaptatif qui alloue dynamiquement l'effort d'exploration en fonction de la difficulté de la tâche. Notre approche est motivée par deux observations empiriques clés : (i) bien que l'entropie à un seul token soit bruitée, les tokens à haute entropie de fenêtre (HWE) (entropies au niveau des tokens moyennées sous une fenêtre glissante) peuvent capturer de manière fiable les moments critiques du raisonnement ; et (ii) réduire l'utilisation de HWE bénéficie aux problèmes faciles, tandis que l'augmenter est essentiel pour résoudre les problèmes difficiles. Sur la base de ces insights, ARES introduit un pipeline d'entraînement en deux étapes. Dans l'étape de démarrage à froid adaptatif, nous sélectionnons des données multimodales et textuelles accompagnées de traces de raisonnement dont la longueur est proportionnelle à la difficulté du problème, dotant ainsi le modèle d'une conscience initiale de la difficulté. Dans la deuxième étape, nous développons l'Optimisation de Politique d'Entropie Adaptative (AEPO), qui utilise les tokens HWE comme déclencheurs d'exploration pour décider quand explorer, et une récompense d'entropie hiérarchique avec contrôle dynamique de KL pour décider combien explorer. Des expériences approfondies démontrent qu'ARES atteint des performances et une efficacité de raisonnement supérieures sur divers benchmarks mathématiques, logiques et multimodaux, tout en réduisant l'écart avec les systèmes commerciaux leaders à des coûts d'inférence significativement plus faibles.
English
Recent advances in multimodal large reasoning models (MLRMs) have
substantially improved their ability to solve complex textual and visual tasks.
However, these models tend to overthink on simple problems, producing
unnecessarily lengthy reasoning traces, while under-exploring on challenging
ones, leading to missed solutions. To address this imbalance, we propose ARES,
a unified open-source framework for adaptive reasoning that dynamically
allocates exploration effort based on task difficulty. Our approach is
motivated by two key empirical findings: (i) while single-token entropy is
noisy, high window-entropy (HWE) tokens (token-level entropies averaged under a
sliding window) can reliably capture reasoning-critical moments; and (ii)
reducing HWE usage benefits easy problems, while increasing it is essential for
solving hard ones. Building on these insights, ARES introduces a two-stage
training pipeline. In the Adaptive Cold-Start stage, we curate multimodal and
textual data paired with reasoning traces of length proportional to problem
difficulty, equipping the model with initial difficulty awareness. In the
second stage, we develop Adaptive Entropy Policy Optimization (AEPO), which
uses HWE tokens as exploration triggers to decide when to explore, and a
hierarchical entropy reward with dynamic KL control to decide how much to
explore. Extensive experiments demonstrate that ARES achieves superior
performance and reasoning efficiency across diverse mathematical, logical, and
multimodal benchmarks, while closing the gap to leading commercial systems
under significantly lower inference costs.