LLaVA-OneVision-1.5: Marco Abierto Completo para la Capacitación Multimodal Democratizada

Resumen

Presentamos LLaVA-OneVision-1.5, una nueva familia de Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) que alcanzan un rendimiento de vanguardia con costos computacionales y financieros significativamente reducidos. A diferencia de los trabajos existentes, LLaVA-OneVision-1.5 ofrece un marco abierto, eficiente y reproducible para construir modelos de visión y lenguaje de alta calidad desde cero. La versión de LLaVA-OneVision-1.5 consta de tres componentes principales: (1) Conjuntos de Datos Cuidadosamente Curados: Construimos un conjunto de datos de preentrenamiento equilibrado en conceptos de 85M, denominado LLaVA-OneVision-1.5-Mid-Training, y un conjunto de datos de instrucciones meticulosamente curado de 26M, llamado LLaVA-OneVision-1.5-Instruct, que en conjunto abarcan 64B tokens multimodales comprimidos. (2) Marco de Entrenamiento Eficiente: Desarrollamos un marco de entrenamiento eficiente completo de extremo a extremo que aprovecha una estrategia de empaquetado de datos paralelo fuera de línea para facilitar el entrenamiento de LLaVA-OneVision-1.5 dentro de un presupuesto de $16,000. (3) Rendimiento de Vanguardia: Los resultados experimentales demuestran que LLaVA-OneVision-1.5 ofrece un rendimiento excepcionalmente competitivo en una amplia gama de tareas posteriores. Específicamente, LLaVA-OneVision-1.5-8B supera a Qwen2.5-VL-7B en 18 de 27 puntos de referencia, y LLaVA-OneVision-1.5-4B supera a Qwen2.5-VL-3B en los 27 puntos de referencia. Anticipamos lanzar LLaVA-OneVision-1.5-RL en breve y alentamos a la comunidad a esperar más actualizaciones.

English

We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models (LMMs) that achieve state-of-the-art performance with significantly reduced computational and financial costs. Different from the existing works, LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for building high-quality vision-language models entirely from scratch. The LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale Curated Datasets: We construct an 85M concept-balanced pretraining dataset LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed multimodal tokens. (2) Efficient Training Framework: We develop a complete end-to-end efficient training framework leveraging an offline parallel data packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a $16,000 budget. (3) State-of-the-art Performance: Experimental results demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive performance across a broad range of downstream tasks. Specifically, LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community to await further updates.

LLaVA-OneVision-1.5: Marco Abierto Completo para la Capacitación Multimodal Democratizada

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

Resumen

Support