ARES: Raciocínio Adaptativo Multimodal via Modelagem de Entropia em Nível de Token com Consciência de Dificuldade
ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping
October 9, 2025
Autores: Shuang Chen, Yue Guo, Yimeng Ye, Shijue Huang, Wenbo Hu, Haoxi Li, Manyuan Zhang, Jiayu Chen, Song Guo, Nanyun Peng
cs.AI
Resumo
Avanços recentes em modelos de raciocínio multimodal de grande escala (MLRMs) melhoraram substancialmente sua capacidade de resolver tarefas complexas envolvendo texto e imagens. No entanto, esses modelos tendem a "pensar demais" em problemas simples, produzindo traços de raciocínio desnecessariamente longos, enquanto exploram insuficientemente problemas desafiadores, levando a soluções perdidas. Para abordar esse desequilíbrio, propomos o ARES, um framework unificado e de código aberto para raciocínio adaptativo que aloca dinamicamente o esforço de exploração com base na dificuldade da tarefa. Nossa abordagem é motivada por duas descobertas empíricas principais: (i) embora a entropia de token único seja ruidosa, tokens de alta entropia de janela (HWE) (entropias em nível de token calculadas sob uma janela deslizante) podem capturar de forma confiável momentos críticos de raciocínio; e (ii) reduzir o uso de HWE beneficia problemas fáceis, enquanto aumentá-lo é essencial para resolver problemas difíceis. Com base nessas percepções, o ARES introduz um pipeline de treinamento em duas etapas. Na etapa de Inicialização Adaptativa, curamos dados multimodais e textuais pareados com traços de raciocínio de comprimento proporcional à dificuldade do problema, equipando o modelo com uma consciência inicial da dificuldade. Na segunda etapa, desenvolvemos a Otimização de Política de Entropia Adaptativa (AEPO), que usa tokens HWE como gatilhos de exploração para decidir quando explorar, e uma recompensa de entropia hierárquica com controle dinâmico de KL para decidir quanto explorar. Experimentos extensivos demonstram que o ARES alcança desempenho superior e eficiência de raciocínio em diversos benchmarks matemáticos, lógicos e multimodais, enquanto reduz a lacuta para sistemas comerciais líderes com custos de inferência significativamente menores.
English
Recent advances in multimodal large reasoning models (MLRMs) have
substantially improved their ability to solve complex textual and visual tasks.
However, these models tend to overthink on simple problems, producing
unnecessarily lengthy reasoning traces, while under-exploring on challenging
ones, leading to missed solutions. To address this imbalance, we propose ARES,
a unified open-source framework for adaptive reasoning that dynamically
allocates exploration effort based on task difficulty. Our approach is
motivated by two key empirical findings: (i) while single-token entropy is
noisy, high window-entropy (HWE) tokens (token-level entropies averaged under a
sliding window) can reliably capture reasoning-critical moments; and (ii)
reducing HWE usage benefits easy problems, while increasing it is essential for
solving hard ones. Building on these insights, ARES introduces a two-stage
training pipeline. In the Adaptive Cold-Start stage, we curate multimodal and
textual data paired with reasoning traces of length proportional to problem
difficulty, equipping the model with initial difficulty awareness. In the
second stage, we develop Adaptive Entropy Policy Optimization (AEPO), which
uses HWE tokens as exploration triggers to decide when to explore, and a
hierarchical entropy reward with dynamic KL control to decide how much to
explore. Extensive experiments demonstrate that ARES achieves superior
performance and reasoning efficiency across diverse mathematical, logical, and
multimodal benchmarks, while closing the gap to leading commercial systems
under significantly lower inference costs.