Долгие обоснованные мысли: масштабное извлечение композиционных цепочек визуального рассуждения
Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
November 7, 2025
Авторы: David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi
cs.AI
Аннотация
Последние достижения в области мультимодальных рассуждений в значительной степени обусловлены использованием нераскрытых наборов данных и проприетарных рецептов синтеза данных, что оставляет открытыми вопросы о том, как систематически создавать крупномасштабные визуально-центричные наборы данных для рассуждений, особенно для задач, выходящих за рамки визуальной математики. В данной работе мы представляем новую структуру генерации данных для рассуждений, охватывающую разнообразные навыки и уровни сложности, с более чем 1 миллионом высококачественных синтетических визуально-центричных вопросов. Набор данных также включает данные о предпочтениях и инструктивные промты, поддерживающие как оффлайн, так и онлайн обучение с подкреплением (RL). Наша структура синтеза состоит из двух этапов: (1) масштабирование и (2) усложнение. Цепочки рассуждений затем синтезируются в процессе из двух стадий, который использует возможности визуально-языковых моделей (VLM) и языковых моделей для рассуждений (LLM), создавая трассы "мыслительной цепи" (CoT) для VLM, которые отражают богатство и разнообразие когнитивных поведений, характерных для передовых моделей рассуждений. Примечательно, что мы показываем, что дообучение модели Qwen2.5-VL-7B на наших данных превосходит все открытые базовые модели по всем оцениваемым визуально-центричным бенчмаркам и даже превосходит сильные модели на закрытых данных, такие как MiMo-VL-7B-RL, на V* Bench, CV-Bench и MMStar-V. Что, возможно, наиболее удивительно, несмотря на полностью визуально-центричный характер, наши данные положительно переносятся на чисто текстовые рассуждения (MMLU-Pro) и аудиальные рассуждения (MMAU), демонстрируя свою эффективность. Аналогичным образом, несмотря на отсутствие видео или данных эмбадированного зрения, мы наблюдаем значительный прогресс при оценке на бенчмарке эмбадированных вопросов-ответов с единичным свидетельством (NiEH). Наконец, мы используем наши данные для анализа всего конвейера пост-обучения VLM. Наш эмпирический анализ подчеркивает, что (i) SFT на высококачественных данных с нелинейными цепочками рассуждений необходим для эффективного онлайн RL, (ii) поэтапный оффлайн RL соответствует производительности онлайн RL при снижении вычислительных затрат и (iii) тщательное SFT на качественных данных может существенно улучшить межмодальный перенос вне домена.
English
Recent progress in multimodal reasoning has been driven largely by undisclosed datasets and proprietary data synthesis recipes, leaving open questions about how to systematically build large-scale, vision-centric reasoning datasets, particularly for tasks that go beyond visual math. In this work, we introduce a new reasoning data generation framework spanning diverse skills and levels of complexity with over 1M high-quality synthetic vision-centric questions. The dataset also includes preference data and instruction prompts supporting both offline and online RL. Our synthesis framework proceeds in two stages: (1) scale; and (2) complexity. Reasoning traces are then synthesized through a two-stage process that leverages VLMs and reasoning LLMs, producing CoT traces for VLMs that capture the richness and diverse cognitive behaviors found in frontier reasoning models. Remarkably, we show that finetuning Qwen2.5-VL-7B on our data outperforms all open-data baselines across all evaluated vision-centric benchmarks, and even surpasses strong closed-data models such as MiMo-VL-7B-RL on V* Bench, CV-Bench and MMStar-V. Perhaps most surprising, despite being entirely vision-centric, our data transfers positively to text-only reasoning (MMLU-Pro) and audio reasoning (MMAU), demonstrating its effectiveness. Similarly, despite not containing videos or embodied visual data, we observe notable gains when evaluating on a single-evidence embodied QA benchmark (NiEH). Finally, we use our data to analyze the entire VLM post-training pipeline. Our empirical analysis highlights that (i) SFT on high-quality data with non-linear reasoning traces is essential for effective online RL, (ii) staged offline RL matches online RL's performance while reducing compute demands, and (iii) careful SFT on high quality data can substantially improve out-of-domain, cross-modality transfer.