Pensées Longuement Enracinées : Distillation à Grande Échelle de Chaînes de Raisonnement Visuel Compositionnel
Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
November 7, 2025
papers.authors: David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi
cs.AI
papers.abstract
Les progrès récents en raisonnement multimodal ont été largement motivés par des jeux de données non divulgués et des recettes propriétaires de synthèse de données, laissant ouvertes les questions sur la manière de construire systématiquement des jeux de données de raisonnement à grande scale et centrés sur la vision, particulièrement pour des tâches dépassant les mathématiques visuelles. Dans ce travail, nous introduisons un nouveau cadre de génération de données de raisonnement couvrant des compétences diverses et des niveaux de complexité variés, avec plus d’un million de questions synthétiques de haute qualité centrées sur la vision. Le jeu de données inclut également des données de préférence et des prompts d’instruction supportant à la fois l’apprentissage par renforcement (RL) hors ligne et en ligne. Notre cadre de synthèse procède en deux étapes : (1) l’échelle ; et (2) la complexité. Les traces de raisonnement sont ensuite synthétisées via un processus en deux phases exploitant des modèles vision-langage (VLM) et des modèles de langage dédiés au raisonnement (LLM), produisant des traces de raisonnement en chaîne (CoT) pour les VLM qui capturent la richesse et les divers comportements cognitifs présents dans les modèles de raisonnement de pointe. Fait remarquable, nous montrons que le fine-tuning de Qwen2.5-VL-7B sur nos données surpasse toutes les bases de référence ouvertes sur l’ensemble des benchmarks vision-centrés évalués, et dépasse même des modèles fermés solides tels que MiMo-VL-7B-RL sur V* Bench, CV-Bench et MMStar-V. Plus surprenant encore, bien qu’entièrement centré sur la vision, nos données transfèrent positivement vers le raisonnement purement textuel (MMLU-Pro) et le raisonnement audio (MMAU), démontrant ainsi son efficacité. De même, bien qu’il ne contienne pas de vidéos ou de données visuelles embodiées, nous observons des gains notables lors de l’évaluation sur un benchmark de questions-réponses embodiées à preuve unique (NiEH). Enfin, nous utilisons nos données pour analyser l’ensemble du pipeline de post-formation des VLM. Notre analyse empirique met en évidence que (i) le SFT sur des données de haute qualité avec des traces de raisonnement non linéaires est essentiel pour un RL en ligne efficace, (ii) le RL hors ligne par étapes atteint les performances du RL en ligne tout en réduisant les besoins en calcul, et (iii) un SFT minutieux sur des données de qualité peut considérablement améliorer le transfert hors domaine et cross-modalité.
English
Recent progress in multimodal reasoning has been driven largely by undisclosed datasets and proprietary data synthesis recipes, leaving open questions about how to systematically build large-scale, vision-centric reasoning datasets, particularly for tasks that go beyond visual math. In this work, we introduce a new reasoning data generation framework spanning diverse skills and levels of complexity with over 1M high-quality synthetic vision-centric questions. The dataset also includes preference data and instruction prompts supporting both offline and online RL. Our synthesis framework proceeds in two stages: (1) scale; and (2) complexity. Reasoning traces are then synthesized through a two-stage process that leverages VLMs and reasoning LLMs, producing CoT traces for VLMs that capture the richness and diverse cognitive behaviors found in frontier reasoning models. Remarkably, we show that finetuning Qwen2.5-VL-7B on our data outperforms all open-data baselines across all evaluated vision-centric benchmarks, and even surpasses strong closed-data models such as MiMo-VL-7B-RL on V* Bench, CV-Bench and MMStar-V. Perhaps most surprising, despite being entirely vision-centric, our data transfers positively to text-only reasoning (MMLU-Pro) and audio reasoning (MMAU), demonstrating its effectiveness. Similarly, despite not containing videos or embodied visual data, we observe notable gains when evaluating on a single-evidence embodied QA benchmark (NiEH). Finally, we use our data to analyze the entire VLM post-training pipeline. Our empirical analysis highlights that (i) SFT on high-quality data with non-linear reasoning traces is essential for effective online RL, (ii) staged offline RL matches online RL's performance while reducing compute demands, and (iii) careful SFT on high quality data can substantially improve out-of-domain, cross-modality transfer.