Lange Gewortelde Gedachten: Grootschalige Destillatie van Compositionele Visuele Redeneerketens
Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
November 7, 2025
Auteurs: David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi
cs.AI
Samenvatting
Recente vooruitgang in multimodale redeneervaardigheden wordt grotendeels aangedreven door niet-openbaar gemaakte datasets en propriëtaire datasynthese-recepten, waardoor vragen onbeantwoord blijven over hoe men op een systematische manier grootschalige, visueel-centrische redeneerdatasets kan opbouwen, in het bijzonder voor taken die verder gaan dan visuele wiskunde. In dit werk introduceren we een nieuw kader voor het genereren van redeneerdata, dat diverse vaardigheden en complexiteitsniveaus omvat met meer dan 1 miljoen hoogwaardige synthetische, visueel-centrische vragen. De dataset omvat ook preferentiedata en instructieprompts die zowel offline als online RL ondersteunen. Ons syntheseframework verloopt in twee fasen: (1) schaal; en (2) complexiteit. Redeneersporen worden vervolgens gesynthetiseerd via een proces in twee stappen dat gebruikmaakt van VLM's en redeneer-LLM's, waarbij CoT-sporen voor VLM's worden geproduceerd die de rijkdom en diverse cognitieve gedragingen vastleggen die worden aangetroffen in geavanceerde redeneermodellen. Opmerkelijk is dat we aantonen dat het finetunen van Qwen2.5-VL-7B op onze data alle open-data-baselines overtreft op alle geëvalueerde visueel-centrische benchmarks, en zelfs sterke closed-data-modellen zoals MiMo-VL-7B-RL overstijgt op V* Bench, CV-Bench en MMStar-V. Wellicht het meest verrassend is dat onze data, ondanks dat ze volledig visueel-centrisch is, positief transferreert naar uitsluitend tekstueel redeneren (MMLU-Pro) en audio-redeneren (MMAU), wat de effectiviteit ervan aantoont. Evenzo, ondanks het ontbreken van video's of belichaamde visuele data, observeren we aanzienlijke verbeteringen bij evaluatie op een benchmark voor belichaamde vraag-antwoordtaken met enkelvoudig bewijs (NiEH). Ten slotte gebruiken we onze data om de gehele VLM-post-trainingspipeline te analyseren. Onze empirische analyse benadrukt dat (i) SFT op hoogwaardige data met niet-lineaire redeneersporen essentieel is voor effectieve online RL, (ii) gefaseerde offline RL de prestaties van online RL evenaart terwijl de rekenbehoefte afneemt, en (iii) zorgvuldige SFT op hoogwaardige data de out-of-domain, cross-modaliteit transfer aanzienlijk kan verbeteren.
English
Recent progress in multimodal reasoning has been driven largely by undisclosed datasets and proprietary data synthesis recipes, leaving open questions about how to systematically build large-scale, vision-centric reasoning datasets, particularly for tasks that go beyond visual math. In this work, we introduce a new reasoning data generation framework spanning diverse skills and levels of complexity with over 1M high-quality synthetic vision-centric questions. The dataset also includes preference data and instruction prompts supporting both offline and online RL. Our synthesis framework proceeds in two stages: (1) scale; and (2) complexity. Reasoning traces are then synthesized through a two-stage process that leverages VLMs and reasoning LLMs, producing CoT traces for VLMs that capture the richness and diverse cognitive behaviors found in frontier reasoning models. Remarkably, we show that finetuning Qwen2.5-VL-7B on our data outperforms all open-data baselines across all evaluated vision-centric benchmarks, and even surpasses strong closed-data models such as MiMo-VL-7B-RL on V* Bench, CV-Bench and MMStar-V. Perhaps most surprising, despite being entirely vision-centric, our data transfers positively to text-only reasoning (MMLU-Pro) and audio reasoning (MMAU), demonstrating its effectiveness. Similarly, despite not containing videos or embodied visual data, we observe notable gains when evaluating on a single-evidence embodied QA benchmark (NiEH). Finally, we use our data to analyze the entire VLM post-training pipeline. Our empirical analysis highlights that (i) SFT on high-quality data with non-linear reasoning traces is essential for effective online RL, (ii) staged offline RL matches online RL's performance while reducing compute demands, and (iii) careful SFT on high quality data can substantially improve out-of-domain, cross-modality transfer.