MAmmoTH-VL: Elicitación de Razonamiento Multimodal con Ajuste de Instrucciones a Escala

Resumen

Los modelos de lenguaje grandes multimodales de código abierto (MLLMs) han demostrado un potencial significativo en una amplia gama de tareas multimodales. Sin embargo, sus capacidades de razonamiento siguen estando limitadas por los conjuntos de datos de ajuste de instrucciones existentes, que en su mayoría fueron adaptados de conjuntos de datos académicos como VQA, AI2D y ChartQA. Estos conjuntos de datos se centran en tareas simplistas y solo proporcionan respuestas a nivel de frases sin ningún razonamiento intermedio. Para abordar estos desafíos, presentamos un método escalable y rentable para construir un conjunto de datos de ajuste de instrucciones multimodal a gran escala con razonamientos intermedios detallados y ricos diseñados para provocar el razonamiento CoT. Utilizando solo modelos abiertos, creamos un conjunto de datos que contiene 12 millones de pares de instrucciones-respuestas para cubrir tareas diversas y intensivas en razonamiento con razonamientos detallados y fieles. Los experimentos demuestran que el entrenamiento de MLLMs en este conjunto de datos mejora significativamente las capacidades de razonamiento, logrando un rendimiento de vanguardia en benchmarks como MathVerse (+8.1%), MMMU-Pro (+7%) y MuirBench (+13.3%). Además, el modelo muestra mejoras notables de hasta un 4% en benchmarks no basados en razonamiento. Estudios de abstracción resaltan aún más la importancia de componentes clave, como la reescritura y el auto-filtrado, en el proceso de construcción del conjunto de datos.

English

Open-source multimodal large language models (MLLMs) have shown significant potential in a broad range of multimodal tasks. However, their reasoning capabilities remain constrained by existing instruction-tuning datasets, which were predominately repurposed from academic datasets such as VQA, AI2D, and ChartQA. These datasets target simplistic tasks, and only provide phrase-level answers without any intermediate rationales. To address these challenges, we introduce a scalable and cost-effective method to construct a large-scale multimodal instruction-tuning dataset with rich intermediate rationales designed to elicit CoT reasoning. Using only open models, we create a dataset containing 12M instruction-response pairs to cover diverse, reasoning-intensive tasks with detailed and faithful rationales. Experiments demonstrate that training MLLMs on this dataset significantly improves reasoning capabilities, achieving state-of-the-art performance on benchmarks such as MathVerse (+8.1%), MMMU-Pro (+7%), and MuirBench (+13.3%). Additionally, the model demonstrates notable improvements of up to 4% on non-reasoning-based benchmarks. Ablation studies further highlight the importance of key components, such as rewriting and self-filtering, in the dataset construction process.

MAmmoTH-VL: Elicitación de Razonamiento Multimodal con Ajuste de Instrucciones a Escala

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

Resumen

Support