大規模に構成された視覚的推論連鎖の蒸留
Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
November 7, 2025
著者: David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi
cs.AI
要旨
マルチモーダル推論の最近の進歩は、非公開データセットと独自のデータ合成レシピに大きく依存しており、大規模で視覚中心の推論データセットを体系的に構築する方法、特に視覚数学を超えるタスクについては未解決の問題が残されている。本研究では、100万以上の高品質な合成視覚中心問題を含む、多様なスキルと複雑さのレベルにわたる新しい推論データ生成フレームワークを提案する。このデータセットには、オフラインおよびオンライン強化学習(RL)をサポートする選好データと指示プロンプトも含まれる。我々の合成フレームワークは、(1) 規模拡大と (2) 複雑化の2段階で進行する。推論トレースは、VLMと推論LLMを活用した2段階プロセスを通じて合成され、フロンティア推論モデルに見られる豊富で多様な認知行動を捉えたVLM向けCoTトレースを生成する。驚くべきことに、Qwen2.5-VL-7Bを当データでファインチューニングすると、評価対象の全ての視覚中心ベンチマークでオープンデータベースラインを凌駕し、V* Bench、CV-Bench、MMStar-Vにおいて強力なクローズドデータモデルであるMiMo-VL-7B-RLさえも上回る性能を示した。おそらく最も驚くべきは、データが完全に視覚中心であるにもかかわらず、テキストのみの推論(MMLU-Pro)および音声推論(MMAU)へ正の転移が見られ、その有効性が実証された点である。同様に、動画や身体性視覚データを含んでいないにもかかわらず、単一証拠に基づく身体性QAベンチマーク(NiEH)での評価において顕著な性能向上が観察された。最後に、当データを用いてVLMポストトレーニングパイプライン全体を分析した。実証分析により、(i) 非線形推論トレースを含む高品質データによるSFTが効果的なオンラインRLに不可欠であること、(ii) 段階的オフラインRLが計算コストを削減しつつオンラインRLと同等の性能を達成できること、(iii) 高品質データに対する注意深いSFTがドメイン外・クロスモダリティ転移を大幅に改善しうることが明らかになった。
English
Recent progress in multimodal reasoning has been driven largely by undisclosed datasets and proprietary data synthesis recipes, leaving open questions about how to systematically build large-scale, vision-centric reasoning datasets, particularly for tasks that go beyond visual math. In this work, we introduce a new reasoning data generation framework spanning diverse skills and levels of complexity with over 1M high-quality synthetic vision-centric questions. The dataset also includes preference data and instruction prompts supporting both offline and online RL. Our synthesis framework proceeds in two stages: (1) scale; and (2) complexity. Reasoning traces are then synthesized through a two-stage process that leverages VLMs and reasoning LLMs, producing CoT traces for VLMs that capture the richness and diverse cognitive behaviors found in frontier reasoning models. Remarkably, we show that finetuning Qwen2.5-VL-7B on our data outperforms all open-data baselines across all evaluated vision-centric benchmarks, and even surpasses strong closed-data models such as MiMo-VL-7B-RL on V* Bench, CV-Bench and MMStar-V. Perhaps most surprising, despite being entirely vision-centric, our data transfers positively to text-only reasoning (MMLU-Pro) and audio reasoning (MMAU), demonstrating its effectiveness. Similarly, despite not containing videos or embodied visual data, we observe notable gains when evaluating on a single-evidence embodied QA benchmark (NiEH). Finally, we use our data to analyze the entire VLM post-training pipeline. Our empirical analysis highlights that (i) SFT on high-quality data with non-linear reasoning traces is essential for effective online RL, (ii) staged offline RL matches online RL's performance while reducing compute demands, and (iii) careful SFT on high quality data can substantially improve out-of-domain, cross-modality transfer.