LLaVA-OneVision-1.5: Marco Abierto Completo para la Capacitación Multimodal Democratizada
LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
September 28, 2025
Autores: Xiang An, Yin Xie, Kaicheng Yang, Wenkang Zhang, Xiuwei Zhao, Zheng Cheng, Yirui Wang, Songcen Xu, Changrui Chen, Chunsheng Wu, Huajie Tan, Chunyuan Li, Jing Yang, Jie Yu, Xiyao Wang, Bin Qin, Yumeng Wang, Zizhen Yan, Ziyong Feng, Ziwei Liu, Bo Li, Jiankang Deng
cs.AI
Resumen
Presentamos LLaVA-OneVision-1.5, una nueva familia de Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) que alcanzan un rendimiento de vanguardia con costos computacionales y financieros significativamente reducidos. A diferencia de los trabajos existentes, LLaVA-OneVision-1.5 ofrece un marco abierto, eficiente y reproducible para construir modelos de visión y lenguaje de alta calidad desde cero. La versión de LLaVA-OneVision-1.5 consta de tres componentes principales: (1) Conjuntos de Datos Cuidadosamente Curados: Construimos un conjunto de datos de preentrenamiento equilibrado en conceptos de 85M, denominado LLaVA-OneVision-1.5-Mid-Training, y un conjunto de datos de instrucciones meticulosamente curado de 26M, llamado LLaVA-OneVision-1.5-Instruct, que en conjunto abarcan 64B tokens multimodales comprimidos. (2) Marco de Entrenamiento Eficiente: Desarrollamos un marco de entrenamiento eficiente completo de extremo a extremo que aprovecha una estrategia de empaquetado de datos paralelo fuera de línea para facilitar el entrenamiento de LLaVA-OneVision-1.5 dentro de un presupuesto de $16,000. (3) Rendimiento de Vanguardia: Los resultados experimentales demuestran que LLaVA-OneVision-1.5 ofrece un rendimiento excepcionalmente competitivo en una amplia gama de tareas posteriores. Específicamente, LLaVA-OneVision-1.5-8B supera a Qwen2.5-VL-7B en 18 de 27 puntos de referencia, y LLaVA-OneVision-1.5-4B supera a Qwen2.5-VL-3B en los 27 puntos de referencia. Anticipamos lanzar LLaVA-OneVision-1.5-RL en breve y alentamos a la comunidad a esperar más actualizaciones.
English
We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models
(LMMs) that achieve state-of-the-art performance with significantly reduced
computational and financial costs. Different from the existing works,
LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for
building high-quality vision-language models entirely from scratch. The
LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale
Curated Datasets: We construct an 85M concept-balanced pretraining dataset
LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction
dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed
multimodal tokens. (2) Efficient Training Framework: We develop a complete
end-to-end efficient training framework leveraging an offline parallel data
packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a
$16,000 budget. (3) State-of-the-art Performance: Experimental results
demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive
performance across a broad range of downstream tasks. Specifically,
LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and
LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We
anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community
to await further updates.