ММ1.5: Методы, анализ и идеи по мелкой настройке мультимодальной LLMMM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
Мы представляем MM1.5, новое семейство мультимодальных крупных языковых моделей (MLLMs), разработанных для расширения возможностей в понимании изображений с текстом, визуальной ссылки и привязки, а также многократного рассуждения на основе изображений. Основываясь на архитектуре MM1, MM1.5 принимает подход, основанный на данных, к обучению модели, систематически исследуя влияние разнообразных комбинаций данных на протяжении всего жизненного цикла обучения модели. Это включает данные высокого качества OCR и синтетические подписи для непрерывного предварительного обучения, а также оптимизированную комбинацию данных для настройки визуальных инструкций для контролируемого дообучения. Наши модели варьируются от 1B до 30B параметров, охватывая как плотные, так и варианты смеси экспертов (MoE), и демонстрируют, что тщательная кураторская работа с данными и стратегии обучения могут обеспечить высокую производительность даже на небольших масштабах (1B и 3B). Кроме того, мы представляем два специализированных варианта: MM1.5-Video, разработанный для понимания видео, и MM1.5-UI, нацеленный на понимание мобильного пользовательского интерфейса. Через обширные эмпирические исследования и абляции мы предоставляем подробные исследования процессов обучения и принятия решений, лежащих в основе наших конечных конструкций, предлагая ценные рекомендации для будущих исследований в области развития MLLM.