MAmmoTH-VL: Het opwekken van multimodaal redeneren met instructieafstemming op schaal
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale
December 6, 2024
Auteurs: Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue
cs.AI
Samenvatting
Open-source multimodale grote taalmodellen (MLLM's) hebben aanzienlijk potentieel getoond in een breed scala van multimodale taken. Echter, hun redeneervermogen blijft beperkt door bestaande instructie-afstemmingsdatasets, die voornamelijk hergebruikt zijn van academische datasets zoals VQA, AI2D, en ChartQA. Deze datasets richten zich op eenvoudige taken en bieden alleen antwoorden op zinsniveau zonder enige tussenliggende rationales. Om deze uitdagingen aan te pakken, introduceren we een schaalbare en kosteneffectieve methode om een grootschalige multimodale instructie-afstemmingsdataset te construeren met rijke tussenliggende rationales die zijn ontworpen om CoT-redenering op te wekken. Met behulp van alleen open modellen creëren we een dataset met 12M instructie-antwoordparen om diverse, redeneringsintensieve taken te bestrijken met gedetailleerde en trouwe rationales. Experimenten tonen aan dat het trainen van MLLM's op deze dataset het redeneervermogen aanzienlijk verbetert, met het behalen van state-of-the-art prestaties op benchmarks zoals MathVerse (+8,1%), MMMU-Pro (+7%) en MuirBench (+13,3%). Bovendien vertoont het model opmerkelijke verbeteringen tot 4% op niet-redeneringsgebaseerde benchmarks. Ablatiestudies benadrukken verder het belang van sleutelcomponenten, zoals herschrijven en zelffiltering, in het datasetconstructieproces.
English
Open-source multimodal large language models (MLLMs) have shown significant
potential in a broad range of multimodal tasks. However, their reasoning
capabilities remain constrained by existing instruction-tuning datasets, which
were predominately repurposed from academic datasets such as VQA, AI2D, and
ChartQA. These datasets target simplistic tasks, and only provide phrase-level
answers without any intermediate rationales. To address these challenges, we
introduce a scalable and cost-effective method to construct a large-scale
multimodal instruction-tuning dataset with rich intermediate rationales
designed to elicit CoT reasoning. Using only open models, we create a dataset
containing 12M instruction-response pairs to cover diverse, reasoning-intensive
tasks with detailed and faithful rationales. Experiments demonstrate that
training MLLMs on this dataset significantly improves reasoning capabilities,
achieving state-of-the-art performance on benchmarks such as MathVerse (+8.1%),
MMMU-Pro (+7%), and MuirBench (+13.3%). Additionally, the model demonstrates
notable improvements of up to 4% on non-reasoning-based benchmarks. Ablation
studies further highlight the importance of key components, such as rewriting
and self-filtering, in the dataset construction process.