MAmmoTH-VL: Elicitación de Razonamiento Multimodal con Ajuste de Instrucciones a Escala
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale
December 6, 2024
Autores: Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue
cs.AI
Resumen
Los modelos de lenguaje grandes multimodales de código abierto (MLLMs) han demostrado un potencial significativo en una amplia gama de tareas multimodales. Sin embargo, sus capacidades de razonamiento siguen estando limitadas por los conjuntos de datos de ajuste de instrucciones existentes, que en su mayoría fueron adaptados de conjuntos de datos académicos como VQA, AI2D y ChartQA. Estos conjuntos de datos se centran en tareas simplistas y solo proporcionan respuestas a nivel de frases sin ningún razonamiento intermedio. Para abordar estos desafíos, presentamos un método escalable y rentable para construir un conjunto de datos de ajuste de instrucciones multimodal a gran escala con razonamientos intermedios detallados y ricos diseñados para provocar el razonamiento CoT. Utilizando solo modelos abiertos, creamos un conjunto de datos que contiene 12 millones de pares de instrucciones-respuestas para cubrir tareas diversas y intensivas en razonamiento con razonamientos detallados y fieles. Los experimentos demuestran que el entrenamiento de MLLMs en este conjunto de datos mejora significativamente las capacidades de razonamiento, logrando un rendimiento de vanguardia en benchmarks como MathVerse (+8.1%), MMMU-Pro (+7%) y MuirBench (+13.3%). Además, el modelo muestra mejoras notables de hasta un 4% en benchmarks no basados en razonamiento. Estudios de abstracción resaltan aún más la importancia de componentes clave, como la reescritura y el auto-filtrado, en el proceso de construcción del conjunto de datos.
English
Open-source multimodal large language models (MLLMs) have shown significant
potential in a broad range of multimodal tasks. However, their reasoning
capabilities remain constrained by existing instruction-tuning datasets, which
were predominately repurposed from academic datasets such as VQA, AI2D, and
ChartQA. These datasets target simplistic tasks, and only provide phrase-level
answers without any intermediate rationales. To address these challenges, we
introduce a scalable and cost-effective method to construct a large-scale
multimodal instruction-tuning dataset with rich intermediate rationales
designed to elicit CoT reasoning. Using only open models, we create a dataset
containing 12M instruction-response pairs to cover diverse, reasoning-intensive
tasks with detailed and faithful rationales. Experiments demonstrate that
training MLLMs on this dataset significantly improves reasoning capabilities,
achieving state-of-the-art performance on benchmarks such as MathVerse (+8.1%),
MMMU-Pro (+7%), and MuirBench (+13.3%). Additionally, the model demonstrates
notable improvements of up to 4% on non-reasoning-based benchmarks. Ablation
studies further highlight the importance of key components, such as rewriting
and self-filtering, in the dataset construction process.Summary
AI-Generated Summary