ChatPaper.aiChatPaper

ММ1.5: Методы, анализ и идеи по мелкой настройке мультимодальной LLM

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

September 30, 2024
Авторы: Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang
cs.AI

Аннотация

Мы представляем MM1.5, новое семейство мультимодальных крупных языковых моделей (MLLMs), разработанных для расширения возможностей в понимании изображений с текстом, визуальной ссылки и привязки, а также многократного рассуждения на основе изображений. Основываясь на архитектуре MM1, MM1.5 принимает подход, основанный на данных, к обучению модели, систематически исследуя влияние разнообразных комбинаций данных на протяжении всего жизненного цикла обучения модели. Это включает данные высокого качества OCR и синтетические подписи для непрерывного предварительного обучения, а также оптимизированную комбинацию данных для настройки визуальных инструкций для контролируемого дообучения. Наши модели варьируются от 1B до 30B параметров, охватывая как плотные, так и варианты смеси экспертов (MoE), и демонстрируют, что тщательная кураторская работа с данными и стратегии обучения могут обеспечить высокую производительность даже на небольших масштабах (1B и 3B). Кроме того, мы представляем два специализированных варианта: MM1.5-Video, разработанный для понимания видео, и MM1.5-UI, нацеленный на понимание мобильного пользовательского интерфейса. Через обширные эмпирические исследования и абляции мы предоставляем подробные исследования процессов обучения и принятия решений, лежащих в основе наших конечных конструкций, предлагая ценные рекомендации для будущих исследований в области развития MLLM.
English
We present MM1.5, a new family of multimodal large language models (MLLMs) designed to enhance capabilities in text-rich image understanding, visual referring and grounding, and multi-image reasoning. Building upon the MM1 architecture, MM1.5 adopts a data-centric approach to model training, systematically exploring the impact of diverse data mixtures across the entire model training lifecycle. This includes high-quality OCR data and synthetic captions for continual pre-training, as well as an optimized visual instruction-tuning data mixture for supervised fine-tuning. Our models range from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE) variants, and demonstrate that careful data curation and training strategies can yield strong performance even at small scales (1B and 3B). Additionally, we introduce two specialized variants: MM1.5-Video, designed for video understanding, and MM1.5-UI, tailored for mobile UI understanding. Through extensive empirical studies and ablations, we provide detailed insights into the training processes and decisions that inform our final designs, offering valuable guidance for future research in MLLM development.

Summary

AI-Generated Summary

PDF573November 13, 2024