V-Thinker: Интерактивное мышление с визуальными образами
V-Thinker: Interactive Thinking with Images
November 6, 2025
Авторы: Runqi Qiao, Qiuna Tan, Minghan Yang, Guanting Dong, Peiqing Yang, Shiqiang Lang, Enhui Wan, Xiaowan Wang, Yida Xu, Lan Yang, Chong Sun, Chen Li, Honggang Zhang
cs.AI
Аннотация
Наделение крупных мультимодальных моделей (LMM) способностью к глубокой интеграции взаимодействия с изображениями и долгосрочным рассуждениям остается давней проблемой в этой области. Недавние достижения в области визуально-центрированного мышления исследуют перспективную парадигму «мышления через изображения» для LMM, знаменуя переход от рассуждений с помощью изображений к интерактивному мышлению на основе изображений. Хотя этот прорыв позволяет моделям фокусироваться на мелкозернистых областях изображений, прогресс остается ограниченным из-за узкого пространства визуальных инструментов и специфичных для задач дизайнов рабочих процессов. Чтобы устранить этот разрыв, мы представляем V-Thinker, универсального мультимодального ассистента для рассуждений, который обеспечивает интерактивное, визуально-центрированное мышление с помощью сквозного обучения с подкреплением. V-Thinker состоит из двух ключевых компонентов: (1) Маховика Эволюции Данных, который автоматически синтезирует, развивает и проверяет интерактивные наборы данных для рассуждений по трем измерениям — разнообразию, качеству и сложности; и (2) Визуального Прогрессивного Учебного Плана, который сначала выравнивает восприятие с помощью точечного контроля, а затем интегрирует интерактивные рассуждения через двухэтапную框架 обучения с подкреплением. Кроме того, мы представляем VTBench, экспертно-верифицированный бенчмарк, нацеленный на задачи визуально-центрированного интерактивного мышления. Многочисленные эксперименты демонстрируют, что V-Thinker стабильно превосходит сильные базовые модели на основе LMM как в общих, так и в интерактивных сценариях рассуждений, предоставляя ценные insights для развития приложений интерактивного мышления на основе изображений.
English
Empowering Large Multimodal Models (LMMs) to deeply integrate image
interaction with long-horizon reasoning capabilities remains a long-standing
challenge in this field. Recent advances in vision-centric reasoning explore a
promising "Thinking with Images" paradigm for LMMs, marking a shift from
image-assisted reasoning to image-interactive thinking. While this milestone
enables models to focus on fine-grained image regions, progress remains
constrained by limited visual tool spaces and task-specific workflow designs.
To bridge this gap, we present V-Thinker, a general-purpose multimodal
reasoning assistant that enables interactive, vision-centric thinking through
end-to-end reinforcement learning. V-Thinker comprises two key components: (1)
a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies
interactive reasoning datasets across three dimensions-diversity, quality, and
difficulty; and (2) a Visual Progressive Training Curriculum that first aligns
perception via point-level supervision, then integrates interactive reasoning
through a two-stage reinforcement learning framework. Furthermore, we introduce
VTBench, an expert-verified benchmark targeting vision-centric interactive
reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently
outperforms strong LMM-based baselines in both general and interactive
reasoning scenarios, providing valuable insights for advancing
image-interactive reasoning applications.