ChatPaper.aiChatPaper

TinyLLaVA: Фреймворк для компактных крупномасштабных мультимодальных моделей

TinyLLaVA: A Framework of Small-scale Large Multimodal Models

February 22, 2024
Авторы: Baichuan Zhou, Ying Hu, Xi Weng, Junlong Jia, Jie Luo, Xien Liu, Ji Wu, Lei Huang
cs.AI

Аннотация

Мы представляем фреймворк TinyLLaVA, который предлагает унифицированный подход к проектированию и анализу небольших крупномасштабных мультимодальных моделей (LMM). Мы эмпирически исследуем влияние различных визуальных кодировщиков, соединительных модулей, языковых моделей, обучающих данных и методик обучения. Наши обширные эксперименты показали, что более качественные данные в сочетании с улучшенными методиками обучения позволяют меньшим LMM стабильно достигать результатов, сопоставимых с более крупными моделями. В рамках нашего фреймворка мы обучаем семейство небольших LMM. Наша лучшая модель, TinyLLaVA-3.1B, демонстрирует превосходную общую производительность по сравнению с существующими 7B моделями, такими как LLaVA-1.5 и Qwen-VL. Мы надеемся, что наши результаты послужат базовыми ориентирами для будущих исследований в области масштабирования данных, настройки обучения и выбора моделей. Веса и коды нашей модели будут опубликованы в открытом доступе.
English
We present the TinyLLaVA framework that provides a unified perspective in designing and analyzing the small-scale Large Multimodal Models (LMMs). We empirically study the effects of different vision encoders, connection modules, language models, training data and training recipes. Our extensive experiments showed that better quality of data combined with better training recipes, smaller LMMs can consistently achieve on-par performances compared to bigger LMMs. Under our framework, we train a family of small-scale LMMs. Our best model, TinyLLaVA-3.1B, achieves better overall performance against existing 7B models such as LLaVA-1.5 and Qwen-VL. We hope our findings can serve as baselines for future research in terms of data scaling, training setups and model selections. Our model weights and codes will be made public.
PDF212December 15, 2024