ChatPaper.aiChatPaper

ARES: Ragionamento Adattivo Multimodale tramite Modellazione dell'Entropia a Livello di Token Basata sulla Difficoltà

ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping

October 9, 2025
Autori: Shuang Chen, Yue Guo, Yimeng Ye, Shijue Huang, Wenbo Hu, Haoxi Li, Manyuan Zhang, Jiayu Chen, Song Guo, Nanyun Peng
cs.AI

Abstract

I recenti progressi nei modelli di ragionamento multimodale su larga scala (MLRM) hanno migliorato significativamente la loro capacità di risolvere compiti complessi sia testuali che visivi. Tuttavia, questi modelli tendono a sovraccaricarsi su problemi semplici, producendo tracce di ragionamento eccessivamente lunghe, mentre esplorano in modo insufficiente quelli più complessi, portando a soluzioni mancate. Per affrontare questo squilibrio, proponiamo ARES, un framework open-source unificato per il ragionamento adattivo che assegna dinamicamente lo sforzo di esplorazione in base alla difficoltà del compito. Il nostro approccio è motivato da due risultati empirici chiave: (i) mentre l'entropia a singolo token è rumorosa, i token con alta entropia a finestra (HWE) (entropie a livello di token medie sotto una finestra scorrevole) possono catturare in modo affidabile i momenti critici del ragionamento; e (ii) ridurre l'uso di HWE beneficia i problemi semplici, mentre aumentarlo è essenziale per risolvere quelli difficili. Basandoci su queste intuizioni, ARES introduce una pipeline di addestramento in due fasi. Nella fase di Cold-Start Adattivo, curiamo dati multimodali e testuali accoppiati a tracce di ragionamento di lunghezza proporzionale alla difficoltà del problema, dotando il modello di una consapevolezza iniziale della difficoltà. Nella seconda fase, sviluppiamo l'Optimizzazione della Politica di Entropia Adattiva (AEPO), che utilizza i token HWE come trigger di esplorazione per decidere quando esplorare, e una ricompensa di entropia gerarchica con controllo dinamico di KL per decidere quanto esplorare. Esperimenti estensivi dimostrano che ARES raggiunge prestazioni superiori e un'efficienza di ragionamento su vari benchmark matematici, logici e multimodali, riducendo il divario rispetto ai principali sistemi commerciali con costi di inferenza significativamente inferiori.
English
Recent advances in multimodal large reasoning models (MLRMs) have substantially improved their ability to solve complex textual and visual tasks. However, these models tend to overthink on simple problems, producing unnecessarily lengthy reasoning traces, while under-exploring on challenging ones, leading to missed solutions. To address this imbalance, we propose ARES, a unified open-source framework for adaptive reasoning that dynamically allocates exploration effort based on task difficulty. Our approach is motivated by two key empirical findings: (i) while single-token entropy is noisy, high window-entropy (HWE) tokens (token-level entropies averaged under a sliding window) can reliably capture reasoning-critical moments; and (ii) reducing HWE usage benefits easy problems, while increasing it is essential for solving hard ones. Building on these insights, ARES introduces a two-stage training pipeline. In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty, equipping the model with initial difficulty awareness. In the second stage, we develop Adaptive Entropy Policy Optimization (AEPO), which uses HWE tokens as exploration triggers to decide when to explore, and a hierarchical entropy reward with dynamic KL control to decide how much to explore. Extensive experiments demonstrate that ARES achieves superior performance and reasoning efficiency across diverse mathematical, logical, and multimodal benchmarks, while closing the gap to leading commercial systems under significantly lower inference costs.
PDF122October 13, 2025