ARES: Razonamiento Adaptativo Multimodal mediante Modelado de Entropía a Nivel de Tokens con Conciencia de Dificultad
ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping
October 9, 2025
Autores: Shuang Chen, Yue Guo, Yimeng Ye, Shijue Huang, Wenbo Hu, Haoxi Li, Manyuan Zhang, Jiayu Chen, Song Guo, Nanyun Peng
cs.AI
Resumen
Los recientes avances en los modelos de razonamiento multimodal a gran escala (MLRMs, por sus siglas en inglés) han mejorado sustancialmente su capacidad para resolver tareas complejas tanto textuales como visuales. Sin embargo, estos modelos tienden a sobrepensar en problemas simples, produciendo trazas de razonamiento innecesariamente largas, mientras que subexploran en los desafiantes, lo que lleva a soluciones perdidas. Para abordar este desequilibrio, proponemos ARES, un marco unificado de código abierto para el razonamiento adaptativo que asigna dinámicamente el esfuerzo de exploración según la dificultad de la tarea. Nuestro enfoque está motivado por dos hallazgos empíricos clave: (i) aunque la entropía de un solo token es ruidosa, los tokens de alta entropía en ventana (HWE, por sus siglas en inglés) (entropías a nivel de token promediadas bajo una ventana deslizante) pueden capturar de manera confiable momentos críticos para el razonamiento; y (ii) reducir el uso de HWE beneficia a los problemas fáciles, mientras que aumentarlo es esencial para resolver los difíciles. Basándonos en estas ideas, ARES introduce una canalización de entrenamiento en dos etapas. En la etapa de Arranque Frío Adaptativo, seleccionamos datos multimodales y textuales emparejados con trazas de razonamiento de longitud proporcional a la dificultad del problema, dotando al modelo de una conciencia inicial de la dificultad. En la segunda etapa, desarrollamos la Optimización de Política de Entropía Adaptativa (AEPO, por sus siglas en inglés), que utiliza tokens HWE como desencadenantes de exploración para decidir cuándo explorar, y una recompensa de entropía jerárquica con control dinámico de KL para decidir cuánto explorar. Experimentos extensos demuestran que ARES logra un rendimiento superior y una eficiencia de razonamiento en diversos puntos de referencia matemáticos, lógicos y multimodales, al tiempo que reduce la brecha con los sistemas comerciales líderes bajo costos de inferencia significativamente más bajos.
English
Recent advances in multimodal large reasoning models (MLRMs) have
substantially improved their ability to solve complex textual and visual tasks.
However, these models tend to overthink on simple problems, producing
unnecessarily lengthy reasoning traces, while under-exploring on challenging
ones, leading to missed solutions. To address this imbalance, we propose ARES,
a unified open-source framework for adaptive reasoning that dynamically
allocates exploration effort based on task difficulty. Our approach is
motivated by two key empirical findings: (i) while single-token entropy is
noisy, high window-entropy (HWE) tokens (token-level entropies averaged under a
sliding window) can reliably capture reasoning-critical moments; and (ii)
reducing HWE usage benefits easy problems, while increasing it is essential for
solving hard ones. Building on these insights, ARES introduces a two-stage
training pipeline. In the Adaptive Cold-Start stage, we curate multimodal and
textual data paired with reasoning traces of length proportional to problem
difficulty, equipping the model with initial difficulty awareness. In the
second stage, we develop Adaptive Entropy Policy Optimization (AEPO), which
uses HWE tokens as exploration triggers to decide when to explore, and a
hierarchical entropy reward with dynamic KL control to decide how much to
explore. Extensive experiments demonstrate that ARES achieves superior
performance and reasoning efficiency across diverse mathematical, logical, and
multimodal benchmarks, while closing the gap to leading commercial systems
under significantly lower inference costs.