TinyLLaVA : Un cadre pour les modèles multimodaux à grande échelle de petite taille

papers.abstract

Nous présentons le cadre TinyLLaVA, qui offre une perspective unifiée pour la conception et l'analyse des modèles multimodaux de grande échelle à petite échelle (LMMs). Nous étudions empiriquement les effets des différents encodeurs visuels, modules de connexion, modèles de langage, données d'entraînement et protocoles d'entraînement. Nos expériences approfondies montrent qu'une meilleure qualité des données combinée à de meilleurs protocoles d'entraînement permet aux LMMs de petite taille d'atteindre des performances comparables à celles des LMMs plus grands. Dans le cadre de notre approche, nous entraînons une famille de LMMs à petite échelle. Notre meilleur modèle, TinyLLaVA-3.1B, obtient une performance globale supérieure à celle des modèles existants de 7B tels que LLaVA-1.5 et Qwen-VL. Nous espérons que nos résultats pourront servir de références pour les recherches futures en termes de mise à l'échelle des données, configurations d'entraînement et sélection de modèles. Les poids de nos modèles et les codes seront rendus publics.

English

We present the TinyLLaVA framework that provides a unified perspective in designing and analyzing the small-scale Large Multimodal Models (LMMs). We empirically study the effects of different vision encoders, connection modules, language models, training data and training recipes. Our extensive experiments showed that better quality of data combined with better training recipes, smaller LMMs can consistently achieve on-par performances compared to bigger LMMs. Under our framework, we train a family of small-scale LMMs. Our best model, TinyLLaVA-3.1B, achieves better overall performance against existing 7B models such as LLaVA-1.5 and Qwen-VL. We hope our findings can serve as baselines for future research in terms of data scaling, training setups and model selections. Our model weights and codes will be made public.

TinyLLaVA : Un cadre pour les modèles multimodaux à grande échelle de petite taille

TinyLLaVA: A Framework of Small-scale Large Multimodal Models

papers.abstract

Support