ARES: 難易度認識トークンレベルエントロピーシェーピングによるマルチモーダル適応推論
ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping
October 9, 2025
著者: Shuang Chen, Yue Guo, Yimeng Ye, Shijue Huang, Wenbo Hu, Haoxi Li, Manyuan Zhang, Jiayu Chen, Song Guo, Nanyun Peng
cs.AI
要旨
近年、マルチモーダル大規模推論モデル(MLRM)の進展により、複雑なテキストおよび視覚的タスクを解決する能力が大幅に向上している。しかし、これらのモデルは単純な問題に対して過剰に思考し、不必要に長い推論過程を生成する一方で、難しい問題に対しては探索が不十分であり、解決策を見逃す傾向がある。この不均衡を解消するため、我々はARESを提案する。これは、タスクの難易度に基づいて探索努力を動的に割り当てる適応的推論のための統一されたオープンソースフレームワークである。我々のアプローチは、以下の2つの重要な経験的発見に基づいている:(i) 単一トークンのエントロピーはノイズが多いが、高ウィンドウエントロピー(HWE)トークン(スライディングウィンドウ下で平均化されたトークンレベルのエントロピー)は推論の重要な瞬間を確実に捉えることができる;(ii) HWEの使用を減らすことは簡単な問題に有益であり、逆にHWEの使用を増やすことは難しい問題を解決するために不可欠である。これらの知見に基づき、ARESは2段階のトレーニングパイプラインを導入する。適応的コールドスタート段階では、問題の難易度に比例した長さの推論過程とペアになったマルチモーダルおよびテキストデータをキュレーションし、モデルに初期の難易度認識を備えさせる。第2段階では、HWEトークンを探索トリガーとして使用し、いつ探索するかを決定し、動的KL制御を伴う階層的エントロピー報酬を使用してどれだけ探索するかを決定する適応的エントロピーポリシー最適化(AEPO)を開発する。広範な実験により、ARESが多様な数学的、論理的、およびマルチモーダルベンチマークにおいて優れた性能と推論効率を達成し、大幅に低い推論コストで主要な商用システムとのギャップを埋めることが実証された。
English
Recent advances in multimodal large reasoning models (MLRMs) have
substantially improved their ability to solve complex textual and visual tasks.
However, these models tend to overthink on simple problems, producing
unnecessarily lengthy reasoning traces, while under-exploring on challenging
ones, leading to missed solutions. To address this imbalance, we propose ARES,
a unified open-source framework for adaptive reasoning that dynamically
allocates exploration effort based on task difficulty. Our approach is
motivated by two key empirical findings: (i) while single-token entropy is
noisy, high window-entropy (HWE) tokens (token-level entropies averaged under a
sliding window) can reliably capture reasoning-critical moments; and (ii)
reducing HWE usage benefits easy problems, while increasing it is essential for
solving hard ones. Building on these insights, ARES introduces a two-stage
training pipeline. In the Adaptive Cold-Start stage, we curate multimodal and
textual data paired with reasoning traces of length proportional to problem
difficulty, equipping the model with initial difficulty awareness. In the
second stage, we develop Adaptive Entropy Policy Optimization (AEPO), which
uses HWE tokens as exploration triggers to decide when to explore, and a
hierarchical entropy reward with dynamic KL control to decide how much to
explore. Extensive experiments demonstrate that ARES achieves superior
performance and reasoning efficiency across diverse mathematical, logical, and
multimodal benchmarks, while closing the gap to leading commercial systems
under significantly lower inference costs.