TinyLLaVA: Un Marco de Trabajo para Modelos Multimodales de Gran Escala a Pequeña Escala
TinyLLaVA: A Framework of Small-scale Large Multimodal Models
February 22, 2024
Autores: Baichuan Zhou, Ying Hu, Xi Weng, Junlong Jia, Jie Luo, Xien Liu, Ji Wu, Lei Huang
cs.AI
Resumen
Presentamos el marco TinyLLaVA, que ofrece una perspectiva unificada en el diseño y análisis de Modelos Multimodales de Gran Escala (LMMs) a pequeña escala. Estudiamos empíricamente los efectos de diferentes codificadores visuales, módulos de conexión, modelos de lenguaje, datos de entrenamiento y recetas de entrenamiento. Nuestros extensos experimentos demostraron que, al combinar datos de mayor calidad con mejores recetas de entrenamiento, los LMMs más pequeños pueden lograr consistentemente un rendimiento comparable al de los LMMs más grandes. Bajo nuestro marco, entrenamos una familia de LMMs a pequeña escala. Nuestro mejor modelo, TinyLLaVA-3.1B, logra un mejor rendimiento general en comparación con modelos existentes de 7B, como LLaVA-1.5 y Qwen-VL. Esperamos que nuestros hallazgos sirvan como referencia para futuras investigaciones en términos de escalado de datos, configuraciones de entrenamiento y selección de modelos. Los pesos de nuestro modelo y los códigos se harán públicos.
English
We present the TinyLLaVA framework that provides a unified perspective in
designing and analyzing the small-scale Large Multimodal Models (LMMs). We
empirically study the effects of different vision encoders, connection modules,
language models, training data and training recipes. Our extensive experiments
showed that better quality of data combined with better training recipes,
smaller LMMs can consistently achieve on-par performances compared to bigger
LMMs. Under our framework, we train a family of small-scale LMMs. Our best
model, TinyLLaVA-3.1B, achieves better overall performance against existing 7B
models such as LLaVA-1.5 and Qwen-VL. We hope our findings can serve as
baselines for future research in terms of data scaling, training setups and
model selections. Our model weights and codes will be made public.