ChatPaper.aiChatPaper

MAmmoTH-VL: Вызов мультимодального мышления с настройкой инструкций в масштабе

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

December 6, 2024
Авторы: Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xiang Yue
cs.AI

Аннотация

Многомодельные языковые модели (MLLM), основанные на открытом исходном коде, продемонстрировали значительный потенциал в широком спектре многомодальных задач. Однако их способности к рассуждениям остаются ограниченными из-за существующих наборов данных для настройки инструкций, которые в основном были адаптированы из академических наборов данных, таких как VQA, AI2D и ChartQA. Эти наборы данных ориентированы на упрощенные задачи и предоставляют только ответы на уровне фраз без каких-либо промежуточных обоснований. Для решения этих проблем мы представляем масштабный и экономичный метод построения крупномасштабного многомодального набора данных для настройки инструкций с обширными промежуточными обоснованиями, разработанный для вызова рассуждений CoT. Используя только открытые модели, мы создаем набор данных, содержащий 12 млн пар инструкция-ответ для охвата разнообразных задач, требующих рассуждений, с детальными и достоверными обоснованиями. Эксперименты показывают, что обучение MLLM на этом наборе данных значительно улучшает способности к рассуждениям, достигая передового уровня производительности на бенчмарках, таких как MathVerse (+8,1%), MMMU-Pro (+7%) и MuirBench (+13,3%). Кроме того, модель демонстрирует заметные улучшения до 4% на бенчмарках, не требующих рассуждений. Анализ отсечения дополнительно подчеркивает важность ключевых компонентов, таких как переписывание и самофильтрация, в процессе построения набора данных.
English
Open-source multimodal large language models (MLLMs) have shown significant potential in a broad range of multimodal tasks. However, their reasoning capabilities remain constrained by existing instruction-tuning datasets, which were predominately repurposed from academic datasets such as VQA, AI2D, and ChartQA. These datasets target simplistic tasks, and only provide phrase-level answers without any intermediate rationales. To address these challenges, we introduce a scalable and cost-effective method to construct a large-scale multimodal instruction-tuning dataset with rich intermediate rationales designed to elicit CoT reasoning. Using only open models, we create a dataset containing 12M instruction-response pairs to cover diverse, reasoning-intensive tasks with detailed and faithful rationales. Experiments demonstrate that training MLLMs on this dataset significantly improves reasoning capabilities, achieving state-of-the-art performance on benchmarks such as MathVerse (+8.1%), MMMU-Pro (+7%), and MuirBench (+13.3%). Additionally, the model demonstrates notable improvements of up to 4% on non-reasoning-based benchmarks. Ablation studies further highlight the importance of key components, such as rewriting and self-filtering, in the dataset construction process.

Summary

AI-Generated Summary

PDF482December 9, 2024