ARES: Мультимодальное адаптивное рассуждение через управление энтропией на уровне токенов с учетом сложности
ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping
October 9, 2025
Авторы: Shuang Chen, Yue Guo, Yimeng Ye, Shijue Huang, Wenbo Hu, Haoxi Li, Manyuan Zhang, Jiayu Chen, Song Guo, Nanyun Peng
cs.AI
Аннотация
Последние достижения в области мультимодальных моделей с расширенными возможностями рассуждений (MLRMs) значительно улучшили их способность решать сложные текстовые и визуальные задачи. Однако такие модели склонны чрезмерно усложнять простые задачи, создавая излишне длинные цепочки рассуждений, и недостаточно глубоко исследовать сложные задачи, что приводит к пропуску решений. Для устранения этого дисбаланса мы предлагаем ARES — унифицированную открытую платформу для адаптивного рассуждения, которая динамически распределяет усилия на исследование в зависимости от сложности задачи. Наш подход основан на двух ключевых эмпирических наблюдениях: (i) хотя энтропия отдельных токенов является зашумленной, токены с высокой скользящей энтропией (HWE) (энтропии на уровне токенов, усредненные в скользящем окне) могут надежно фиксировать критические моменты рассуждений; и (ii) уменьшение использования HWE полезно для простых задач, тогда как его увеличение необходимо для решения сложных. Опираясь на эти идеи, ARES представляет двухэтапный процесс обучения. На этапе адаптивного "холодного старта" мы подготавливаем мультимодальные и текстовые данные, сопряженные с цепочками рассуждений, длина которых пропорциональна сложности задачи, что позволяет модели изначально учитывать сложность. На втором этапе мы разрабатываем адаптивную оптимизацию политики энтропии (AEPO), которая использует HWE-токены как триггеры для принятия решения о том, когда исследовать, и иерархическую награду за энтропию с динамическим контролем KL для определения степени исследования. Многочисленные эксперименты демонстрируют, что ARES достигает превосходной производительности и эффективности рассуждений на различных математических, логических и мультимодальных тестах, сокращая разрыв с ведущими коммерческими системами при значительно меньших затратах на вывод.
English
Recent advances in multimodal large reasoning models (MLRMs) have
substantially improved their ability to solve complex textual and visual tasks.
However, these models tend to overthink on simple problems, producing
unnecessarily lengthy reasoning traces, while under-exploring on challenging
ones, leading to missed solutions. To address this imbalance, we propose ARES,
a unified open-source framework for adaptive reasoning that dynamically
allocates exploration effort based on task difficulty. Our approach is
motivated by two key empirical findings: (i) while single-token entropy is
noisy, high window-entropy (HWE) tokens (token-level entropies averaged under a
sliding window) can reliably capture reasoning-critical moments; and (ii)
reducing HWE usage benefits easy problems, while increasing it is essential for
solving hard ones. Building on these insights, ARES introduces a two-stage
training pipeline. In the Adaptive Cold-Start stage, we curate multimodal and
textual data paired with reasoning traces of length proportional to problem
difficulty, equipping the model with initial difficulty awareness. In the
second stage, we develop Adaptive Entropy Policy Optimization (AEPO), which
uses HWE tokens as exploration triggers to decide when to explore, and a
hierarchical entropy reward with dynamic KL control to decide how much to
explore. Extensive experiments demonstrate that ARES achieves superior
performance and reasoning efficiency across diverse mathematical, logical, and
multimodal benchmarks, while closing the gap to leading commercial systems
under significantly lower inference costs.