ChatPaper.aiChatPaper

V-Thinker: Интерактивное мышление с визуальными образами

V-Thinker: Interactive Thinking with Images

November 6, 2025
Авторы: Runqi Qiao, Qiuna Tan, Minghan Yang, Guanting Dong, Peiqing Yang, Shiqiang Lang, Enhui Wan, Xiaowan Wang, Yida Xu, Lan Yang, Chong Sun, Chen Li, Honggang Zhang
cs.AI

Аннотация

Наделение крупных мультимодальных моделей (LMM) способностью к глубокой интеграции взаимодействия с изображениями и долгосрочным рассуждениям остается давней проблемой в этой области. Недавние достижения в области визуально-центрированного мышления исследуют перспективную парадигму «мышления через изображения» для LMM, знаменуя переход от рассуждений с помощью изображений к интерактивному мышлению на основе изображений. Хотя этот прорыв позволяет моделям фокусироваться на мелкозернистых областях изображений, прогресс остается ограниченным из-за узкого пространства визуальных инструментов и специфичных для задач дизайнов рабочих процессов. Чтобы устранить этот разрыв, мы представляем V-Thinker, универсального мультимодального ассистента для рассуждений, который обеспечивает интерактивное, визуально-центрированное мышление с помощью сквозного обучения с подкреплением. V-Thinker состоит из двух ключевых компонентов: (1) Маховика Эволюции Данных, который автоматически синтезирует, развивает и проверяет интерактивные наборы данных для рассуждений по трем измерениям — разнообразию, качеству и сложности; и (2) Визуального Прогрессивного Учебного Плана, который сначала выравнивает восприятие с помощью точечного контроля, а затем интегрирует интерактивные рассуждения через двухэтапную框架 обучения с подкреплением. Кроме того, мы представляем VTBench, экспертно-верифицированный бенчмарк, нацеленный на задачи визуально-центрированного интерактивного мышления. Многочисленные эксперименты демонстрируют, что V-Thinker стабильно превосходит сильные базовые модели на основе LMM как в общих, так и в интерактивных сценариях рассуждений, предоставляя ценные insights для развития приложений интерактивного мышления на основе изображений.
English
Empowering Large Multimodal Models (LMMs) to deeply integrate image interaction with long-horizon reasoning capabilities remains a long-standing challenge in this field. Recent advances in vision-centric reasoning explore a promising "Thinking with Images" paradigm for LMMs, marking a shift from image-assisted reasoning to image-interactive thinking. While this milestone enables models to focus on fine-grained image regions, progress remains constrained by limited visual tool spaces and task-specific workflow designs. To bridge this gap, we present V-Thinker, a general-purpose multimodal reasoning assistant that enables interactive, vision-centric thinking through end-to-end reinforcement learning. V-Thinker comprises two key components: (1) a Data Evolution Flywheel that automatically synthesizes, evolves, and verifies interactive reasoning datasets across three dimensions-diversity, quality, and difficulty; and (2) a Visual Progressive Training Curriculum that first aligns perception via point-level supervision, then integrates interactive reasoning through a two-stage reinforcement learning framework. Furthermore, we introduce VTBench, an expert-verified benchmark targeting vision-centric interactive reasoning tasks. Extensive experiments demonstrate that V-Thinker consistently outperforms strong LMM-based baselines in both general and interactive reasoning scenarios, providing valuable insights for advancing image-interactive reasoning applications.
PDF958December 2, 2025