Pensieri Lungamente Radicati: Distillare a Grande Scala Catene di Ragionamento Visivo Composizionale
Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
November 7, 2025
Autori: David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi
cs.AI
Abstract
I recenti progressi nel ragionamento multimodale sono stati guidati in larga misura da dataset non divulgati e ricette proprietarie di sintesi dei dati, lasciando aperte questioni su come costruire sistematicamente dataset di ragionamento su larga scala e incentrati sulla visione, in particolare per compiti che vanno oltre la matematica visiva. In questo lavoro, introduciamo un nuovo framework di generazione di dati di ragionamento che abbraccia abilità diverse e livelli di complessità con oltre 1 milione di domande sintetiche di alta qualità e incentrate sulla visione. Il dataset include anche dati di preferenza e prompt di istruzione che supportano sia il RL offline che online. Il nostro framework di sintesi procede in due fasi: (1) scala; e (2) complessità. Le tracce di ragionamento vengono poi sintetizzate attraverso un processo a due stadi che sfrutta VLM e LLM di ragionamento, producendo tracce CoT per VLM che catturano la ricchezza e i diversi comportamenti cognitivi presenti nei modelli di ragionamento all'avanguardia. In modo notevole, dimostriamo che il fine-tuning di Qwen2.5-VL-7B sui nostri dati supera tutti i baseline open-data in tutti i benchmark incentrati sulla visione valutati, e supera persino modelli closed-data forti come MiMo-VL-7B-RL su V* Bench, CV-Bench e MMStar-V. Forse ancor più sorprendente, nonostante sia interamente incentrato sulla visione, i nostri dati trasferiscono positivamente al ragionamento puramente testuale (MMLU-Pro) e al ragionamento audio (MMAU), dimostrandone l'efficacia. Analogamente, pur non contenendo video o dati visivi embodied, osserviamo guadagni significativi quando valutati su un benchmark di QA embodied a evidenza singola (NiEH). Infine, utilizziamo i nostri dati per analizzare l'intera pipeline di post-training dei VLM. La nostra analisi empirica evidenzia che (i) il SFT su dati di alta qualità con tracce di ragionamento non lineari è essenziale per un RL online efficace, (ii) il RL offline a stadi eguaglia le prestazioni del RL online riducendo le esigenze computazionali, e (iii) un SFT accurato su dati di alta qualità può migliorare sostanzialmente il trasferimento out-of-domain e cross-modalità.
English
Recent progress in multimodal reasoning has been driven largely by undisclosed datasets and proprietary data synthesis recipes, leaving open questions about how to systematically build large-scale, vision-centric reasoning datasets, particularly for tasks that go beyond visual math. In this work, we introduce a new reasoning data generation framework spanning diverse skills and levels of complexity with over 1M high-quality synthetic vision-centric questions. The dataset also includes preference data and instruction prompts supporting both offline and online RL. Our synthesis framework proceeds in two stages: (1) scale; and (2) complexity. Reasoning traces are then synthesized through a two-stage process that leverages VLMs and reasoning LLMs, producing CoT traces for VLMs that capture the richness and diverse cognitive behaviors found in frontier reasoning models. Remarkably, we show that finetuning Qwen2.5-VL-7B on our data outperforms all open-data baselines across all evaluated vision-centric benchmarks, and even surpasses strong closed-data models such as MiMo-VL-7B-RL on V* Bench, CV-Bench and MMStar-V. Perhaps most surprising, despite being entirely vision-centric, our data transfers positively to text-only reasoning (MMLU-Pro) and audio reasoning (MMAU), demonstrating its effectiveness. Similarly, despite not containing videos or embodied visual data, we observe notable gains when evaluating on a single-evidence embodied QA benchmark (NiEH). Finally, we use our data to analyze the entire VLM post-training pipeline. Our empirical analysis highlights that (i) SFT on high-quality data with non-linear reasoning traces is essential for effective online RL, (ii) staged offline RL matches online RL's performance while reducing compute demands, and (iii) careful SFT on high quality data can substantially improve out-of-domain, cross-modality transfer.