もう一度見て、ゆっくり考える:視覚言語モデルにおける視覚的反射の強化
Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
September 15, 2025
著者: Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang
cs.AI
要旨
テキストのみの「スローシンキング」推論の最近の進展に伴い、この能力を視覚言語モデル(VLM)に転移させ、視覚推論モデル(VRM)を訓練する取り組みが進められています。しかし、この転移には重大な課題があります。VRMにおける効果的な「スローシンキング」には、視覚情報に基づいて推論プロセスを確認する能力である視覚的リフレクションが必要です。定量的分析を通じて、現在のVRMは視覚的リフレクションが限定的であり、生成される応答が長くなるにつれて視覚情報への注意が急速に低下することを観察しました。この課題に対処するため、我々は新しいVRMであるReflection-Vを提案します。Reflection-Vは、コールドスタートのための推論データ構築と強化学習(RL)のための報酬設計に基づいて視覚的リフレクションを強化します。まず、VLMと推論LLMの間で相互作用するエージェントを活用して視覚中心の推論データを構築し、視覚的リフレクションパターンのコールドスタート学習を可能にします。次に、RL中に視覚注意に基づく報酬モデルを使用し、視覚情報に基づいた推論を促進します。その結果、Reflection-Vは複数の視覚推論ベンチマークで大幅な改善を示しています。さらに、Reflection-Vは視覚推論中に視覚情報へのより強く一貫した依存を維持し、視覚的リフレクション能力の効果的な強化を示しています。
English
Recent advances in text-only "slow-thinking" reasoning have prompted efforts
to transfer this capability to vision-language models (VLMs), for training
visual reasoning models (VRMs). owever, such transfer faces critical
challenges: Effective "slow thinking" in VRMs requires visual
reflection, the ability to check the reasoning process based on visual
information. Through quantitative analysis, we observe that current VRMs
exhibit limited visual reflection, as their attention to visual information
diminishes rapidly with longer generated responses. To address this challenge,
we propose a new VRM Reflection-V, which enhances visual reflection
based on reasoning data construction for cold-start and reward design for
reinforcement learning (RL). Firstly, we construct vision-centered reasoning
data by leveraging an agent that interacts between VLMs and reasoning LLMs,
enabling cold-start learning of visual reflection patterns. Secondly, a visual
attention based reward model is employed during RL to encourage reasoning based
on visual information. Therefore, Reflection-V demonstrates
significant improvements across multiple visual reasoning benchmarks.
Furthermore, Reflection-V maintains a stronger and more consistent
reliance on visual information during visual reasoning, indicating effective
enhancement in visual reflection capabilities.