ChatPaper.aiChatPaper

Pensamientos Prolongadamente Fundamentados: Destilando Cadenas de Razonamiento Visual Composicional a Gran Escala

Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

November 7, 2025
Autores: David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi
cs.AI

Resumen

Los recientes avances en razonamiento multimodal han estado impulsados en gran medida por conjuntos de datos no divulgados y recetas propietarias de síntesis de datos, lo que deja abiertas las cuestiones sobre cómo construir sistemáticamente conjuntos de datos de razonamiento a gran escala y centrados en la visión, particularmente para tareas que van más allá de las matemáticas visuales. En este trabajo, presentamos un nuevo marco de generación de datos de razonamiento que abarca diversas habilidades y niveles de complejidad con más de 1 millón de preguntas sintéticas de alta calidad centradas en la visión. El conjunto de datos también incluye datos de preferencia y *prompts* de instrucción que admiten tanto RL (*Reinforcement Learning*) fuera de línea como en línea. Nuestro marco de síntesis procede en dos etapas: (1) escala; y (2) complejidad. Los rastros de razonamiento se sintetizan luego mediante un proceso de dos etapas que aprovecha los VLM (*Vision-Language Models*) y los LLM (*Large Language Models*) de razonamiento, produciendo trazas CoT (*Chain-of-Thought*) para VLM que capturan la riqueza y los diversos comportamientos cognitivos encontrados en los modelos de razonamiento de vanguardia. Notablemente, demostramos que el ajuste fino (*finetuning*) de Qwen2.5-VL-7B con nuestros datos supera a todos los modelos de referencia (*baselines*) de datos abiertos en todos los puntos de referencia (*benchmarks*) centrados en la visión evaluados, e incluso supera a modelos fuertes de datos cerrados como MiMo-VL-7B-RL en V* Bench, CV-Bench y MMStar-V. Quizás lo más sorprendente es que, a pesar de estar completamente centrado en la visión, nuestros datos se transfieren positivamente al razonamiento basado únicamente en texto (MMLU-Pro) y al razonamiento auditivo (MMAU), lo que demuestra su eficacia. Del mismo modo, a pesar de no contener vídeos ni datos visuales de embodiment, observamos ganancias notables al evaluar en un punto de referencia de preguntas y respuestas de embodiment con evidencia única (NiEH). Finalmente, utilizamos nuestros datos para analizar toda la canalización de post-entrenamiento de VLM. Nuestro análisis empírico destaca que (i) el SFT (*Supervised Fine-Tuning*) en datos de alta calidad con trazas de razonamiento no lineales es esencial para un RL en línea efectivo, (ii) el RL fuera de línea por etapas iguala el rendimiento del RL en línea mientras reduce las demandas computacionales, y (iii) un SFT cuidadoso en datos de alta calidad puede mejorar sustancialmente la transferencia fuera de dominio y entre modalidades.
English
Recent progress in multimodal reasoning has been driven largely by undisclosed datasets and proprietary data synthesis recipes, leaving open questions about how to systematically build large-scale, vision-centric reasoning datasets, particularly for tasks that go beyond visual math. In this work, we introduce a new reasoning data generation framework spanning diverse skills and levels of complexity with over 1M high-quality synthetic vision-centric questions. The dataset also includes preference data and instruction prompts supporting both offline and online RL. Our synthesis framework proceeds in two stages: (1) scale; and (2) complexity. Reasoning traces are then synthesized through a two-stage process that leverages VLMs and reasoning LLMs, producing CoT traces for VLMs that capture the richness and diverse cognitive behaviors found in frontier reasoning models. Remarkably, we show that finetuning Qwen2.5-VL-7B on our data outperforms all open-data baselines across all evaluated vision-centric benchmarks, and even surpasses strong closed-data models such as MiMo-VL-7B-RL on V* Bench, CV-Bench and MMStar-V. Perhaps most surprising, despite being entirely vision-centric, our data transfers positively to text-only reasoning (MMLU-Pro) and audio reasoning (MMAU), demonstrating its effectiveness. Similarly, despite not containing videos or embodied visual data, we observe notable gains when evaluating on a single-evidence embodied QA benchmark (NiEH). Finally, we use our data to analyze the entire VLM post-training pipeline. Our empirical analysis highlights that (i) SFT on high-quality data with non-linear reasoning traces is essential for effective online RL, (ii) staged offline RL matches online RL's performance while reducing compute demands, and (iii) careful SFT on high quality data can substantially improve out-of-domain, cross-modality transfer.
PDF72February 7, 2026