TinyLLaVA: Un Framework per Modelli Multimodali di Grande Scala su Piccola Dimensione

Abstract

Presentiamo il framework TinyLLaVA che offre una prospettiva unificata nella progettazione e analisi di modelli multimodali di grandi dimensioni (LMM) su scala ridotta. Studiamo empiricamente gli effetti di diversi encoder visivi, moduli di connessione, modelli linguistici, dati di addestramento e ricette di training. I nostri ampi esperimenti hanno dimostrato che, combinando una migliore qualità dei dati con ricette di addestramento più efficaci, i LMM più piccoli possono raggiungere prestazioni paragonabili a quelle dei LMM più grandi. All'interno del nostro framework, addestriamo una famiglia di LMM su scala ridotta. Il nostro modello migliore, TinyLLaVA-3.1B, ottiene prestazioni complessive superiori rispetto ai modelli esistenti da 7B come LLaVA-1.5 e Qwen-VL. Speriamo che i nostri risultati possano servire come baseline per future ricerche in termini di scalabilità dei dati, configurazioni di addestramento e selezione dei modelli. I pesi del nostro modello e i codici saranno resi pubblici.

English

We present the TinyLLaVA framework that provides a unified perspective in designing and analyzing the small-scale Large Multimodal Models (LMMs). We empirically study the effects of different vision encoders, connection modules, language models, training data and training recipes. Our extensive experiments showed that better quality of data combined with better training recipes, smaller LMMs can consistently achieve on-par performances compared to bigger LMMs. Under our framework, we train a family of small-scale LMMs. Our best model, TinyLLaVA-3.1B, achieves better overall performance against existing 7B models such as LLaVA-1.5 and Qwen-VL. We hope our findings can serve as baselines for future research in terms of data scaling, training setups and model selections. Our model weights and codes will be made public.

TinyLLaVA: Un Framework per Modelli Multimodali di Grande Scala su Piccola Dimensione

TinyLLaVA: A Framework of Small-scale Large Multimodal Models

Abstract

Support