Lange fundierte Gedanken: Kompositionelle visuelle Denkketten in großem Maßstab destillieren
Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
November 7, 2025
papers.authors: David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi
cs.AI
papers.abstract
Jüngste Fortschritte im multimodalen Reasoning wurden maßgeblich durch nicht offengelegte Datensätze und proprietäre Datensynthese-Rezepte erzielt, was Fragen dazu aufwirft, wie groß angelegte, visuell-zentrierte Reasoning-Datensätze systematisch aufgebaut werden können, insbesondere für Aufgaben, die über visuelle Mathematik hinausgehen. In dieser Arbeit stellen wir ein neues Framework zur Generierung von Reasoning-Daten vor, das verschiedene Fähigkeiten und Komplexitätsgrade mit über 1 Million hochwertiger synthetischer, visuell-zentrierter Fragen abdeckt. Der Datensatz umfasst auch Präferenzdaten und Instruktions-Prompts, die sowohl Offline- als auch Online-Reinforcement-Learning (RL) unterstützen. Unser Syntheseframework verläuft in zwei Phasen: (1) Skalierung und (2) Komplexität. Reasoning-Pfade werden anschließend durch einen zweistufigen Prozess synthetisiert, der VLMs (Vision-Language Models) und Reasoning-LLMs nutzt. Dies erzeugt CoT-Pfade (Chain-of-Thought) für VLMs, die die Vielfalt und unterschiedlichen kognitiven Verhaltensweisen fortschrittlicher Reasoning-Modelle erfassen. Bemerkenswerterweise zeigen wir, dass das Fine-Tuning von Qwen2.5-VL-7B auf unseren Daten alle Open-Data-Baselines in allen evaluierten visuell-zentrierten Benchmarks übertrifft und sogar starke Closed-Data-Modelle wie MiMo-VL-7B-RL auf V* Bench, CV-Bench und MMStar-V übertrumpft. Vielleicht am überraschendsten ist, dass unsere Daten trotz ihres rein visuell-zentrierten Charakters positiv auf rein textbasiertes Reasoning (MMLU-Pro) und Audio-Reasoning (MMAU) übertragbar sind, was ihre Effektivität demonstriert. Ebenso beobachten wir trotz des Fehlens von Videos oder verkörperten (embodied) visuellen Daten bemerkenswerte Verbesserungen bei der Auswertung auf einem Benchmark für verkörperte Frage-Antwort-Systeme mit einzelnen Belegen (NiEH). Schließlich nutzen wir unsere Daten, um die gesamte VLM-Nachtrainings-Pipeline zu analysieren. Unsere empirische Analyse hebt hervor, dass (i) SFT (Supervised Fine-Tuning) auf hochwertigen Daten mit nicht-linearen Reasoning-Pfaden entscheidend für effektives Online-RL ist, (ii) gestuftes Offline-RL die Leistung von Online-RL erreicht, dabei aber den Rechenaufwand reduziert, und (iii) sorgfältiges SFT auf hochwertigen Daten die domänenübergreifende, cross-modale Transferleistung erheblich verbessern kann.
English
Recent progress in multimodal reasoning has been driven largely by undisclosed datasets and proprietary data synthesis recipes, leaving open questions about how to systematically build large-scale, vision-centric reasoning datasets, particularly for tasks that go beyond visual math. In this work, we introduce a new reasoning data generation framework spanning diverse skills and levels of complexity with over 1M high-quality synthetic vision-centric questions. The dataset also includes preference data and instruction prompts supporting both offline and online RL. Our synthesis framework proceeds in two stages: (1) scale; and (2) complexity. Reasoning traces are then synthesized through a two-stage process that leverages VLMs and reasoning LLMs, producing CoT traces for VLMs that capture the richness and diverse cognitive behaviors found in frontier reasoning models. Remarkably, we show that finetuning Qwen2.5-VL-7B on our data outperforms all open-data baselines across all evaluated vision-centric benchmarks, and even surpasses strong closed-data models such as MiMo-VL-7B-RL on V* Bench, CV-Bench and MMStar-V. Perhaps most surprising, despite being entirely vision-centric, our data transfers positively to text-only reasoning (MMLU-Pro) and audio reasoning (MMAU), demonstrating its effectiveness. Similarly, despite not containing videos or embodied visual data, we observe notable gains when evaluating on a single-evidence embodied QA benchmark (NiEH). Finally, we use our data to analyze the entire VLM post-training pipeline. Our empirical analysis highlights that (i) SFT on high-quality data with non-linear reasoning traces is essential for effective online RL, (ii) staged offline RL matches online RL's performance while reducing compute demands, and (iii) careful SFT on high quality data can substantially improve out-of-domain, cross-modality transfer.