マルチモーダル連鎖思考におけるトークンレベル方策最適化の再考
Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought
March 24, 2026
著者: Yunheng Li, Hangyi Kuang, Hengrui Zhang, Jiangxia Cao, Zhaojie Liu, Qibin Hou, Ming-Ming Cheng
cs.AI
要旨
マルチモーダル連鎖的思考(CoT)推論では、大規模視覚言語モデルが知覚的接地と多段階推論を交互に織り交ぜた推論軌道を構築する必要がある。しかし、検証可能な報酬による強化学習(RLVR)手法の既存研究では、推論を粗い粒度で最適化するのが一般的であり、視覚的接地の度合いを区別せずにCoTを一様に扱っている。本研究では、マルチモーダル推論軌道のトークンレベル分析を行い、成功する推論には知覚的接地と探索的推論の両方を反映した構造化されたトークン動態が特徴的であることを示す。この分析に基づき、隠れ状態の類似性から知覚事前分布を導出し、平滑なゲート機構を通じてトークンエントロピーと統合することでトークンレベルのアドバンテージを生成するPEPOを提案する。PEPOはGRPOやDAPOなどの既存RLVRフレームワークとシームレスに統合可能であり、追加の教師信号や補助ブランチを必要としない。多様なマルチモーダルベンチマークにおける大規模実験により、幾何学推論、視覚的接地、視覚パズル解決、少数ショット分類にわたって、強力なRLベースラインを一貫して堅牢に改善しつつ、安定した訓練動態を維持することを実証する。コード:https://github.com/xzxxntxdy/PEPO
English
Multimodal Chain-of-Thought (CoT) reasoning requires large vision-language models to construct reasoning trajectories that interleave perceptual grounding with multi-step inference. However, existing Reinforcement Learning with Verifiable Rewards (RLVR) methods typically optimize reasoning at a coarse granularity, treating CoT uniformly without distinguishing their varying degrees of visual grounding. In this work, we conduct a token-level analysis of multimodal reasoning trajectories and show that successful reasoning is characterized by structured token dynamics reflecting both perceptual grounding and exploratory inference. Building upon this analysis, we propose Perception-Exploration Policy Optimization (PEPO), which derives a perception prior from hidden state similarity and integrates it with token entropy through a smooth gating mechanism to produce token-level advantages. PEPO integrates seamlessly with existing RLVR frameworks such as GRPO and DAPO, requiring neither additional supervision nor auxiliary branches. Extensive experiments across diverse multimodal benchmarks demonstrate consistent and robust improvements over strong RL baselines, spanning geometry reasoning, visual grounding, visual puzzle solving, and few-shot classification, while maintaining stable training dynamics. Code: https://github.com/xzxxntxdy/PEPO