ChatPaper.aiChatPaper

V-Thinker: 이미지를 통한 대화형 사고

V-Thinker: Interactive Thinking with Images

November 6, 2025
저자: Runqi Qiao, Qiuna Tan, Minghan Yang, Guanting Dong, Peiqing Yang, Shiqiang Lang, Enhui Wan, Xiaowan Wang, Yida Xu, Lan Yang, Chong Sun, Chen Li, Honggang Zhang
cs.AI

초록

대규모 멀티모달 모델(LMM)이 이미지 상호작용과 장기적 추론 능력을 깊이 있게 통합하도록 하는 것은 이 분야의 오랜 과제로 남아있습니다. 최근 시각 중심 추론 분야의 발전은 LMM을 위한 "이미지와 함께 사고하기(Thinking with Images)" 패러다임이라는 유망한 방향을 탐구하며, 이미지 보조 추론에서 이미지 상호작용 사고로의 전환을 나타내고 있습니다. 이러한 이정표가 모델이 세밀한 이미지 영역에 집중할 수 있게 했지만, 제한된 시각 도구 공간과 과제 특화적 워크플로 설계로 인해 발전은 여전히 제한되고 있습니다. 이러한 격차를 해소하기 위해 우리는 종단간 강화 학습을 통해 상호작용적이고 시각 중심의 사고를 가능하게 하는 범용 멀티모달 추론 보조 도구인 V-Thinker를 제시합니다. V-Thinker는 두 가지 핵심 구성 요소로 이루어집니다: (1) 다양성, 품질, 난이도라는 세 차원에 걸쳐 상호작용 추론 데이터셋을 자동으로 합성, 발전, 검증하는 데이터 진화 플라이휠(Data Evolution Flywheel)과 (2) 포인트 수준 감독을 통해 인식을 먼저 정렬한 후, 두 단계의 강화 학습 프레임워크를 통해 상호작용 추론을 통합하는 시각적 점진적 훈련 커리큘럼(Visual Progressive Training Curriculum)입니다. 더 나아가, 우리는 시각 중심 상호작용 추론 과제를 대상으로 하는 전문가 검증 벤치마크인 VTBench를 소개합니다. 광범위한 실험을 통해 V-Thinker가 일반적 및 상호작용적 추론 시나리오 모두에서 강력한 LMM 기반 기준 모델들을 꾸준히 능가하며, 이미지 상호작용 추론 응용 프로그램의 발전을 위한 가치 있는 통찰력을 제공함을 입증합니다.
English
Empowering Large Multimodal Models (LMMs) to deeply integrate image interaction with long-horizon reasoning capabilities remains a long-standing challenge in this field. Recent advances in vision-centric reasoning explore a promising "Thinking with Images" paradigm for LMMs, marking a shift from image-assisted reasoning to image-interactive thinking. While this milestone enables models to focus on fine-grained image regions, progress remains constrained by limited visual tool spaces and task-specific workflow designs. To bridge this gap, we present V-Thinker, a general-purpose multimodal reasoning assistant that enables interactive, vision-centric thinking through end-to-end reinforcement learning. V-Thinker comprises two key components: (1) a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies interactive reasoning datasets across three dimensions-diversity, quality, and difficulty; and (2) a Visual Progressive Training Curriculum that first aligns perception via point-level supervision, then integrates interactive reasoning through a two-stage reinforcement learning framework. Furthermore, we introduce VTBench, an expert-verified benchmark targeting vision-centric interactive reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently outperforms strong LMM-based baselines in both general and interactive reasoning scenarios, providing valuable insights for advancing image-interactive reasoning applications.
PDF958December 2, 2025