V-Thinker:イメージを用いた対話的思考
V-Thinker: Interactive Thinking with Images
November 6, 2025
著者: Runqi Qiao, Qiuna Tan, Minghan Yang, Guanting Dong, Peiqing Yang, Shiqiang Lang, Enhui Wan, Xiaowan Wang, Yida Xu, Lan Yang, Chong Sun, Chen Li, Honggang Zhang
cs.AI
要旨
大規模マルチモーダルモデル(LMM)に画像インタラクションと長期推論能力を深く統合させることは、この分野における長年の課題である。近年の視覚中心推論の進展は、LMMのための「画像を用いた思考」パラダイムという有望な方向性を探求しており、画像補助型推論から画像対話型思考への転換を示している。この画期的な進歩によりモデルは細粒度の画像領域に注力できるようになったが、視覚ツール空間の限界とタスク特化型ワークフロー設計によって、進歩は依然として制約を受けている。このギャップを埋めるため、我々はエンドツーエンドの強化学習を通じて対話的な視覚中心思考を実現する汎用マルチモーダル推論アシスタント「V-Thinker」を提案する。V-Thinkerは二つの核心コンポーネントで構成される:(1)多様性・品質・難易度の3次元において対話型推論データセットを自動生成・進化・検証する「データ進化フライホイール」、(2)ポイントレベル監督による知覚調整を経て、二段階強化学習フレームワークにより対話型推論を統合する「視覚的段階的訓練カリキュラム」である。さらに、視覚中心の対話型推論タスクに特化した専門家検証済みベンチマーク「VTBench」を導入する。大規模な実験により、V-Thinkerが一般推論と対話型推論の両シナリオにおいて強力なLMMベースラインを一貫して凌駕することを実証し、画像対話型推論応用の進展に貴重な知見を提供する。
English
Empowering Large Multimodal Models (LMMs) to deeply integrate image
interaction with long-horizon reasoning capabilities remains a long-standing
challenge in this field. Recent advances in vision-centric reasoning explore a
promising "Thinking with Images" paradigm for LMMs, marking a shift from
image-assisted reasoning to image-interactive thinking. While this milestone
enables models to focus on fine-grained image regions, progress remains
constrained by limited visual tool spaces and task-specific workflow designs.
To bridge this gap, we present V-Thinker, a general-purpose multimodal
reasoning assistant that enables interactive, vision-centric thinking through
end-to-end reinforcement learning. V-Thinker comprises two key components: (1)
a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies
interactive reasoning datasets across three dimensions-diversity, quality, and
difficulty; and (2) a Visual Progressive Training Curriculum that first aligns
perception via point-level supervision, then integrates interactive reasoning
through a two-stage reinforcement learning framework. Furthermore, we introduce
VTBench, an expert-verified benchmark targeting vision-centric interactive
reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently
outperforms strong LMM-based baselines in both general and interactive
reasoning scenarios, providing valuable insights for advancing
image-interactive reasoning applications.