TinyLLaVA: Un Marco de Trabajo para Modelos Multimodales de Gran Escala a Pequeña Escala

Resumen

Presentamos el marco TinyLLaVA, que ofrece una perspectiva unificada en el diseño y análisis de Modelos Multimodales de Gran Escala (LMMs) a pequeña escala. Estudiamos empíricamente los efectos de diferentes codificadores visuales, módulos de conexión, modelos de lenguaje, datos de entrenamiento y recetas de entrenamiento. Nuestros extensos experimentos demostraron que, al combinar datos de mayor calidad con mejores recetas de entrenamiento, los LMMs más pequeños pueden lograr consistentemente un rendimiento comparable al de los LMMs más grandes. Bajo nuestro marco, entrenamos una familia de LMMs a pequeña escala. Nuestro mejor modelo, TinyLLaVA-3.1B, logra un mejor rendimiento general en comparación con modelos existentes de 7B, como LLaVA-1.5 y Qwen-VL. Esperamos que nuestros hallazgos sirvan como referencia para futuras investigaciones en términos de escalado de datos, configuraciones de entrenamiento y selección de modelos. Los pesos de nuestro modelo y los códigos se harán públicos.

English

We present the TinyLLaVA framework that provides a unified perspective in designing and analyzing the small-scale Large Multimodal Models (LMMs). We empirically study the effects of different vision encoders, connection modules, language models, training data and training recipes. Our extensive experiments showed that better quality of data combined with better training recipes, smaller LMMs can consistently achieve on-par performances compared to bigger LMMs. Under our framework, we train a family of small-scale LMMs. Our best model, TinyLLaVA-3.1B, achieves better overall performance against existing 7B models such as LLaVA-1.5 and Qwen-VL. We hope our findings can serve as baselines for future research in terms of data scaling, training setups and model selections. Our model weights and codes will be made public.

TinyLLaVA: Un Marco de Trabajo para Modelos Multimodales de Gran Escala a Pequeña Escala

TinyLLaVA: A Framework of Small-scale Large Multimodal Models

Resumen

Support