Pensamentos Longamente Fundamentados: Destilando Cadeias de Raciocínio Visual Composicionais em Escala

Resumo

Os recentes avanços no raciocínio multimodal têm sido impulsionados em grande parte por conjuntos de dados não divulgados e receitas proprietárias de síntese de dados, deixando em aberto questões sobre como construir sistematicamente conjuntos de dados de raciocínio em larga escala e centrados na visão, particularmente para tarefas que vão além da matemática visual. Neste trabalho, introduzimos um novo quadro de geração de dados de raciocínio que abrange competências e níveis de complexidade diversos, com mais de 1 milhão de perguntas sintéticas de alta qualidade e centradas na visão. O conjunto de dados também inclui dados de preferência e instruções que suportam tanto RL offline quanto online. Nosso quadro de síntese prossegue em duas etapas: (1) escala; e (2) complexidade. Os traços de raciocínio são então sintetizados através de um processo em duas fases que aproveita VLMs e LLMs de raciocínio, produzindo traços CoT para VLMs que capturam a riqueza e os diversos comportamentos cognitivos encontrados nos modelos de raciocínio de fronteira. Notavelmente, mostramos que o ajuste fino do Qwen2.5-VL-7B com os nossos dados supera todas as linhas de base de dados abertos em todos os benchmarks centrados na visão avaliados, e até ultrapassa modelos fortes de dados fechados, como o MiMo-VL-7B-RL, no V* Bench, CV-Bench e MMStar-V. Talvez o mais surpreendente seja que, apesar de ser inteiramente centrado na visão, os nossos dados transferem-se positivamente para o raciocínio apenas textual (MMLU-Pro) e para o raciocínio auditivo (MMAU), demonstrando a sua eficácia. De forma semelhante, apesar de não conter vídeos ou dados visuais corporificados, observamos ganhos notáveis ao avaliar num benchmark de Q&A corporificado de evidência única (NiEH). Finalmente, usamos os nossos dados para analisar todo o pipeline de pós-treinamento de VLM. A nossa análise empírica destaca que (i) o SFT em dados de alta qualidade com traços de raciocínio não lineares é essencial para um RL online eficaz, (ii) o RL offline faseado iguala o desempenho do RL online enquanto reduz as exigências computacionais, e (iii) um SFT cuidadoso em dados de alta qualidade pode melhorar substancialmente a transferência fora de domínio e entre modalidades.

English

Recent progress in multimodal reasoning has been driven largely by undisclosed datasets and proprietary data synthesis recipes, leaving open questions about how to systematically build large-scale, vision-centric reasoning datasets, particularly for tasks that go beyond visual math. In this work, we introduce a new reasoning data generation framework spanning diverse skills and levels of complexity with over 1M high-quality synthetic vision-centric questions. The dataset also includes preference data and instruction prompts supporting both offline and online RL. Our synthesis framework proceeds in two stages: (1) scale; and (2) complexity. Reasoning traces are then synthesized through a two-stage process that leverages VLMs and reasoning LLMs, producing CoT traces for VLMs that capture the richness and diverse cognitive behaviors found in frontier reasoning models. Remarkably, we show that finetuning Qwen2.5-VL-7B on our data outperforms all open-data baselines across all evaluated vision-centric benchmarks, and even surpasses strong closed-data models such as MiMo-VL-7B-RL on V* Bench, CV-Bench and MMStar-V. Perhaps most surprising, despite being entirely vision-centric, our data transfers positively to text-only reasoning (MMLU-Pro) and audio reasoning (MMAU), demonstrating its effectiveness. Similarly, despite not containing videos or embodied visual data, we observe notable gains when evaluating on a single-evidence embodied QA benchmark (NiEH). Finally, we use our data to analyze the entire VLM post-training pipeline. Our empirical analysis highlights that (i) SFT on high-quality data with non-linear reasoning traces is essential for effective online RL, (ii) staged offline RL matches online RL's performance while reducing compute demands, and (iii) careful SFT on high quality data can substantially improve out-of-domain, cross-modality transfer.

Pensamentos Longamente Fundamentados: Destilando Cadeias de Raciocínio Visual Composicionais em Escala

Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

Resumo

Support