ARES: 난이도 인식 토큰 수준 엔트로피 조정을 통한 다중모드 적응형 추론
ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping
October 9, 2025
저자: Shuang Chen, Yue Guo, Yimeng Ye, Shijue Huang, Wenbo Hu, Haoxi Li, Manyuan Zhang, Jiayu Chen, Song Guo, Nanyun Peng
cs.AI
초록
최근 멀티모달 대규모 추론 모델(MLRMs)의 발전으로 복잡한 텍스트 및 시각적 과제 해결 능력이 크게 향상되었습니다. 그러나 이러한 모델들은 단순한 문제에 대해 과도하게 사고하여 불필요하게 긴 추론 과정을 생성하는 반면, 어려운 문제에서는 충분히 탐색하지 못해 해결책을 놓치는 경향이 있습니다. 이러한 불균형을 해결하기 위해, 우리는 과제 난이도에 따라 탐색 노력을 동적으로 할당하는 적응형 추론을 위한 통합 오픈소스 프레임워크인 ARES를 제안합니다. 우리의 접근 방식은 두 가지 주요 실험적 발견에 기반합니다: (i) 단일 토큰 엔트로피는 노이즈가 많지만, 고윈도우 엔트로피(HWE) 토큰(슬라이딩 윈도우 하에서 평균화된 토큰 수준 엔트로피)은 추론의 중요한 순간을 신뢰성 있게 포착할 수 있으며, (ii) HWE 사용을 줄이는 것은 쉬운 문제에 유리한 반면, 이를 증가시키는 것은 어려운 문제를 해결하는 데 필수적입니다. 이러한 통찰을 바탕으로, ARES는 두 단계의 학습 파이프라인을 도입합니다. 적응형 콜드 스타트 단계에서는 문제 난이도에 비례하는 길이의 추론 과정과 함께 멀티모달 및 텍스트 데이터를 선별하여 모델에 초기 난이도 인식을 부여합니다. 두 번째 단계에서는 HWE 토큰을 탐색 트리거로 사용하여 탐색 시점을 결정하고, 동적 KL 제어를 포함한 계층적 엔트로피 보상을 통해 탐색 정도를 결정하는 적응형 엔트로피 정책 최적화(AEPO)를 개발합니다. 광범위한 실험을 통해 ARES가 다양한 수학적, 논리적, 멀티모달 벤치마크에서 우수한 성능과 추론 효율성을 달성하며, 상당히 낮은 추론 비용으로 선도적인 상용 시스템과의 격차를 줄이는 것을 입증했습니다.
English
Recent advances in multimodal large reasoning models (MLRMs) have
substantially improved their ability to solve complex textual and visual tasks.
However, these models tend to overthink on simple problems, producing
unnecessarily lengthy reasoning traces, while under-exploring on challenging
ones, leading to missed solutions. To address this imbalance, we propose ARES,
a unified open-source framework for adaptive reasoning that dynamically
allocates exploration effort based on task difficulty. Our approach is
motivated by two key empirical findings: (i) while single-token entropy is
noisy, high window-entropy (HWE) tokens (token-level entropies averaged under a
sliding window) can reliably capture reasoning-critical moments; and (ii)
reducing HWE usage benefits easy problems, while increasing it is essential for
solving hard ones. Building on these insights, ARES introduces a two-stage
training pipeline. In the Adaptive Cold-Start stage, we curate multimodal and
textual data paired with reasoning traces of length proportional to problem
difficulty, equipping the model with initial difficulty awareness. In the
second stage, we develop Adaptive Entropy Policy Optimization (AEPO), which
uses HWE tokens as exploration triggers to decide when to explore, and a
hierarchical entropy reward with dynamic KL control to decide how much to
explore. Extensive experiments demonstrate that ARES achieves superior
performance and reasoning efficiency across diverse mathematical, logical, and
multimodal benchmarks, while closing the gap to leading commercial systems
under significantly lower inference costs.