ChatPaper.aiChatPaper

ARES: Multimodales adaptives Schließen durch schwierigkeitsbewusste Entropieformung auf Token-Ebene

ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping

October 9, 2025
papers.authors: Shuang Chen, Yue Guo, Yimeng Ye, Shijue Huang, Wenbo Hu, Haoxi Li, Manyuan Zhang, Jiayu Chen, Song Guo, Nanyun Peng
cs.AI

papers.abstract

Jüngste Fortschritte bei multimodalen großen Denkmodellen (MLRMs) haben deren Fähigkeit zur Lösung komplexer textueller und visueller Aufgaben erheblich verbessert. Diese Modelle neigen jedoch dazu, bei einfachen Problemen übermäßig zu analysieren, was unnötig lange Denkspuren erzeugt, während sie bei schwierigen Problemen zu wenig explorieren, was zu verpassten Lösungen führt. Um dieses Ungleichgewicht zu beheben, schlagen wir ARES vor, ein einheitliches Open-Source-Framework für adaptives Denken, das den Explorationsaufwand dynamisch basierend auf der Aufgabenkomplexität verteilt. Unser Ansatz wird durch zwei zentrale empirische Erkenntnisse motiviert: (i) Während die Entropie einzelner Tokens verrauscht ist, können Tokens mit hoher Fenster-Entropie (HWE) (Token-Entropien, die unter einem gleitenden Fenster gemittelt werden) zuverlässig kritische Momente im Denkprozess erfassen; und (ii) die Reduzierung der HWE-Nutzung ist vorteilhaft für einfache Probleme, während ihre Erhöhung entscheidend für die Lösung schwieriger Probleme ist. Aufbauend auf diesen Erkenntnissen führt ARES eine zweistufige Trainingspipeline ein. In der adaptiven Kaltstartphase kuratieren wir multimodale und textuelle Daten, die mit Denkspuren gepaart sind, deren Länge proportional zur Problemkomplexität ist, wodurch das Modell ein initiales Bewusstsein für die Schwierigkeit erhält. In der zweiten Phase entwickeln wir die Adaptive Entropie-Politikoptimierung (AEPO), die HWE-Tokens als Explorationsauslöser verwendet, um zu entscheiden, wann exploriert werden soll, und eine hierarchische Entropiebelohnung mit dynamischer KL-Steuerung, um festzulegen, wie viel exploriert werden soll. Umfangreiche Experimente zeigen, dass ARES eine überlegene Leistung und Denkeffizienz über diverse mathematische, logische und multimodale Benchmarks hinweg erreicht und dabei die Lücke zu führenden kommerziellen Systemen bei deutlich geringeren Inferenzkosten schließt.
English
Recent advances in multimodal large reasoning models (MLRMs) have substantially improved their ability to solve complex textual and visual tasks. However, these models tend to overthink on simple problems, producing unnecessarily lengthy reasoning traces, while under-exploring on challenging ones, leading to missed solutions. To address this imbalance, we propose ARES, a unified open-source framework for adaptive reasoning that dynamically allocates exploration effort based on task difficulty. Our approach is motivated by two key empirical findings: (i) while single-token entropy is noisy, high window-entropy (HWE) tokens (token-level entropies averaged under a sliding window) can reliably capture reasoning-critical moments; and (ii) reducing HWE usage benefits easy problems, while increasing it is essential for solving hard ones. Building on these insights, ARES introduces a two-stage training pipeline. In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty, equipping the model with initial difficulty awareness. In the second stage, we develop Adaptive Entropy Policy Optimization (AEPO), which uses HWE tokens as exploration triggers to decide when to explore, and a hierarchical entropy reward with dynamic KL control to decide how much to explore. Extensive experiments demonstrate that ARES achieves superior performance and reasoning efficiency across diverse mathematical, logical, and multimodal benchmarks, while closing the gap to leading commercial systems under significantly lower inference costs.
PDF122October 13, 2025