視覚的推論のための潜在的な連鎖思考
Latent Chain-of-Thought for Visual Reasoning
October 27, 2025
著者: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
cs.AI
要旨
思考連鎖(CoT)推論は、大規模視覚言語モデル(LVLM)の解釈可能性と信頼性を向上させる上で重要である。しかし、SFT、PPO、GRPOなどの既存の訓練アルゴリズムは、未見の推論タスクへの汎化が不十分で、偏った報酬モデルへの依存が大きいという課題がある。この課題に対処するため、我々はLVLMにおける推論を事後推論として再定式化し、償却変分推論に基づくスケーラブルな訓練アルゴリズムを提案する。多様性を追求する強化学習アルゴリズムを活用し、多様で高尤度な潜在CoTを促進するトークンレベルの学習信号として、新たなスパース報酬関数を導入する。これにより、決定論的サンプリングの限界を克服し、報酬ハッキングを回避する。さらに、ベイズ推論のスケーリング戦略として、計算コストの高いBest-of-Nやビームサーチを周辺尤度で置き換え、最適な論理根拠と回答を効率的にランク付けする手法を実装する。提案手法が、有効性、汎化性、解釈可能性の観点から、7つの推論ベンチマークにおいて現行の最先端LVLMを改善することを実証する。
English
Chain-of-thought (CoT) reasoning is critical for improving the
interpretability and reliability of Large Vision-Language Models (LVLMs).
However, existing training algorithms such as SFT, PPO, and GRPO may not
generalize well across unseen reasoning tasks and heavily rely on a biased
reward model. To address this challenge, we reformulate reasoning in LVLMs as
posterior inference and propose a scalable training algorithm based on
amortized variational inference. By leveraging diversity-seeking reinforcement
learning algorithms, we introduce a novel sparse reward function for
token-level learning signals that encourage diverse, high-likelihood latent
CoT, overcoming deterministic sampling limitations and avoiding reward hacking.
Additionally, we implement a Bayesian inference-scaling strategy that replaces
costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank
optimal rationales and answers. We empirically demonstrate that the proposed
method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in
terms of effectiveness, generalization, and interpretability.