장기 숙성된 사고: 대규모 구성적 시각 추론 체인의 정제
Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
November 7, 2025
저자: David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi
cs.AI
초록
최근 멀티모달 추론 분야의 발전은 대부분 공개되지 않은 데이터셋과 독점적인 데이터 합성 방법에 의해 주도되어 왔으며, 특히 시각 수학을 넘어서는 과제를 위해 대규모의 시각 중심 추론 데이터셋을 체계적으로 구축하는 방법에 대한 의문이 남아 있었습니다. 본 연구에서는 100만 개 이상의 고품질 합성 시각 중심 질문으로 다양한 기술과 복잡성 수준을 아우르는 새로운 추론 데이터 생성 프레임워크를 소개합니다. 이 데이터셋은 오프라인 및 온라인 강화학습(RL)을 모두 지원하는 선호도 데이터와 지시 프롬프트도 포함하고 있습니다. 우리의 합성 프레임워크는 (1) 규모 확장 및 (2) 복잡성 증가라는 두 단계로 진행됩니다. 이후 추론 흔적은 VLM과 추론 LLM을 활용하는 두 단계 프로세스를 통해 합성되어, 최첨단 추론 모델에서 발견되는 풍부하고 다양한 인지 행동을 포착하는 VLM용 CoT 흔적을 생성합니다. 주목할 만하게도, Qwen2.5-VL-7B을 우리 데이터로 미세 조정하면 평가된 모든 시각 중심 벤치마크에서 오픈 데이터 기반 모델들을 모두 능가하며, V* Bench, CV-Bench, MMStar-V에서 MiMo-VL-7B-RL과 같은 강력한 클로즈드 데이터 모델까지도 능가하는 성능을 보였습니다. 가장 놀라운 점은 전적으로 시각 중심으로 구성되었음에도 불구하고, 우리 데이터가 텍스트 전용 추론(MMLU-Pro)과 오디오 추론(MMAU)에 긍정적으로 전이되어 그 효과성을 입증했다는 것입니다. 마찬가지로, 비디오나 구현된 시각 데이터를 포함하지 않았음에도 불구하고, 단일 증거 구현 질의응답 벤치마크(NiEH)에서 평가 시 상당한 성능 향상을 관찰했습니다. 마지막으로, 우리는 이 데이터를 사용하여 VLM 사후 훈련 파이프라인 전체를 분석합니다. 우리의 실증적 분석은 (i) 비선형 추론 흔적을 가진 고품질 데이터에 대한 SFT가 효과적인 온라인 RL에 필수적이며, (ii) 단계적 오프라인 RL이 컴퓨팅 요구량을 줄이면서 온라인 RL의 성능을 따라갈 수 있고, (iii) 고품질 데이터에 대한 신중한 SFT가 도메인 외부, 크로스 모달리티 전이를 상당히 개선할 수 있음을 강조합니다.
English
Recent progress in multimodal reasoning has been driven largely by undisclosed datasets and proprietary data synthesis recipes, leaving open questions about how to systematically build large-scale, vision-centric reasoning datasets, particularly for tasks that go beyond visual math. In this work, we introduce a new reasoning data generation framework spanning diverse skills and levels of complexity with over 1M high-quality synthetic vision-centric questions. The dataset also includes preference data and instruction prompts supporting both offline and online RL. Our synthesis framework proceeds in two stages: (1) scale; and (2) complexity. Reasoning traces are then synthesized through a two-stage process that leverages VLMs and reasoning LLMs, producing CoT traces for VLMs that capture the richness and diverse cognitive behaviors found in frontier reasoning models. Remarkably, we show that finetuning Qwen2.5-VL-7B on our data outperforms all open-data baselines across all evaluated vision-centric benchmarks, and even surpasses strong closed-data models such as MiMo-VL-7B-RL on V* Bench, CV-Bench and MMStar-V. Perhaps most surprising, despite being entirely vision-centric, our data transfers positively to text-only reasoning (MMLU-Pro) and audio reasoning (MMAU), demonstrating its effectiveness. Similarly, despite not containing videos or embodied visual data, we observe notable gains when evaluating on a single-evidence embodied QA benchmark (NiEH). Finally, we use our data to analyze the entire VLM post-training pipeline. Our empirical analysis highlights that (i) SFT on high-quality data with non-linear reasoning traces is essential for effective online RL, (ii) staged offline RL matches online RL's performance while reducing compute demands, and (iii) careful SFT on high quality data can substantially improve out-of-domain, cross-modality transfer.