MAmmoTH-VL: Elicitando Raciocínio Multimodal com Ajuste de Instruções em Escala
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale
December 6, 2024
Autores: Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue
cs.AI
Resumo
Modelos de linguagem multimodais de grande escala de código aberto (MLLMs) têm demonstrado um potencial significativo em uma ampla gama de tarefas multimodais. No entanto, suas capacidades de raciocínio permanecem limitadas pelos conjuntos de dados de ajuste de instruções existentes, que foram predominantemente adaptados de conjuntos de dados acadêmicos como VQA, AI2D e ChartQA. Esses conjuntos de dados visam tarefas simplistas e fornecem apenas respostas em nível de frase sem quaisquer justificativas intermediárias. Para enfrentar esses desafios, introduzimos um método escalável e econômico para construir um conjunto de dados de ajuste de instruções multimodal em grande escala com justificativas intermediárias ricas projetadas para evocar o raciocínio CoT. Usando apenas modelos abertos, criamos um conjunto de dados contendo 12 milhões de pares de instrução-resposta para cobrir tarefas diversas e intensivas em raciocínio com justificativas detalhadas e fiéis. Experimentos demonstram que o treinamento de MLLMs nesse conjunto de dados melhora significativamente as capacidades de raciocínio, alcançando desempenho de ponta em benchmarks como MathVerse (+8,1%), MMMU-Pro (+7%) e MuirBench (+13,3%). Além disso, o modelo demonstra melhorias notáveis de até 4% em benchmarks não baseados em raciocínio. Estudos de ablação destacam ainda a importância de componentes-chave, como reescrita e auto-filtragem, no processo de construção do conjunto de dados.
English
Open-source multimodal large language models (MLLMs) have shown significant
potential in a broad range of multimodal tasks. However, their reasoning
capabilities remain constrained by existing instruction-tuning datasets, which
were predominately repurposed from academic datasets such as VQA, AI2D, and
ChartQA. These datasets target simplistic tasks, and only provide phrase-level
answers without any intermediate rationales. To address these challenges, we
introduce a scalable and cost-effective method to construct a large-scale
multimodal instruction-tuning dataset with rich intermediate rationales
designed to elicit CoT reasoning. Using only open models, we create a dataset
containing 12M instruction-response pairs to cover diverse, reasoning-intensive
tasks with detailed and faithful rationales. Experiments demonstrate that
training MLLMs on this dataset significantly improves reasoning capabilities,
achieving state-of-the-art performance on benchmarks such as MathVerse (+8.1%),
MMMU-Pro (+7%), and MuirBench (+13.3%). Additionally, the model demonstrates
notable improvements of up to 4% on non-reasoning-based benchmarks. Ablation
studies further highlight the importance of key components, such as rewriting
and self-filtering, in the dataset construction process.Summary
AI-Generated Summary