Neudenken der Token-Level-Policy-Optimierung für multimodale Gedankenketten

Zusammenfassung

Multimodale Chain-of-Thought (CoT)-Argumentation erfordert von großen visuell-sprachlichen Modellen, dass sie Argumentationspfade konstruieren, die perzeptuelle Verankerung mit mehrstufiger Inferenz verschachteln. Bisherige Methoden des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) optimieren die Argumentation jedoch typischerweise auf einer groben Granularitätsebene, indem sie CoT einheitlich behandeln, ohne deren unterschiedliche Grade visueller Verankerung zu unterscheiden. In dieser Arbeit führen wir eine Token-level-Analyse multimodaler Argumentationspfade durch und zeigen, dass erfolgreiches Schließen durch strukturierte Token-Dynamiken charakterisiert ist, die sowohl perzeptuelle Verankerung als auch explorative Inferenz widerspiegeln. Aufbauend auf dieser Analyse schlagen wir Perception-Exploration Policy Optimization (PEPO) vor, das einen Perzeptions-Prior aus der Ähnlichkeit versteckter Zustände ableitet und diesen über einen glatten Gating-Mechanismus mit der Token-Entropie kombiniert, um Token-level-Vorteile zu erzeugen. PEPO lässt sich nahtlos in bestehende RLVR-Frameworks wie GRPO und DAPO integrieren, erfordert weder zusätzliche Supervision noch Hilfszweige. Umfangreiche Experimente über diverse multimodale Benchmarks hinweg demonstrieren konsistente und robuste Verbesserungen gegenüber starken RL-Baselines in den Bereichen geometrisches Schließen, visuelle Verankerung, Lösung visueller Rätsel und Few-Shot-Klassifikation, bei gleichzeitig stabilen Trainingsdynamiken. Code: https://github.com/xzxxntxdy/PEPO

English

Multimodal Chain-of-Thought (CoT) reasoning requires large vision-language models to construct reasoning trajectories that interleave perceptual grounding with multi-step inference. However, existing Reinforcement Learning with Verifiable Rewards (RLVR) methods typically optimize reasoning at a coarse granularity, treating CoT uniformly without distinguishing their varying degrees of visual grounding. In this work, we conduct a token-level analysis of multimodal reasoning trajectories and show that successful reasoning is characterized by structured token dynamics reflecting both perceptual grounding and exploratory inference. Building upon this analysis, we propose Perception-Exploration Policy Optimization (PEPO), which derives a perception prior from hidden state similarity and integrates it with token entropy through a smooth gating mechanism to produce token-level advantages. PEPO integrates seamlessly with existing RLVR frameworks such as GRPO and DAPO, requiring neither additional supervision nor auxiliary branches. Extensive experiments across diverse multimodal benchmarks demonstrate consistent and robust improvements over strong RL baselines, spanning geometry reasoning, visual grounding, visual puzzle solving, and few-shot classification, while maintaining stable training dynamics. Code: https://github.com/xzxxntxdy/PEPO

Neudenken der Token-Level-Policy-Optimierung für multimodale Gedankenketten

Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Zusammenfassung

Support