ChatPaper.aiChatPaper

LLaVA-OneVision-1.5: Marco Abierto Completo para la Capacitación Multimodal Democratizada

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

September 28, 2025
Autores: Xiang An, Yin Xie, Kaicheng Yang, Wenkang Zhang, Xiuwei Zhao, Zheng Cheng, Yirui Wang, Songcen Xu, Changrui Chen, Chunsheng Wu, Huajie Tan, Chunyuan Li, Jing Yang, Jie Yu, Xiyao Wang, Bin Qin, Yumeng Wang, Zizhen Yan, Ziyong Feng, Ziwei Liu, Bo Li, Jiankang Deng
cs.AI

Resumen

Presentamos LLaVA-OneVision-1.5, una nueva familia de Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) que alcanzan un rendimiento de vanguardia con costos computacionales y financieros significativamente reducidos. A diferencia de los trabajos existentes, LLaVA-OneVision-1.5 ofrece un marco abierto, eficiente y reproducible para construir modelos de visión y lenguaje de alta calidad desde cero. La versión de LLaVA-OneVision-1.5 consta de tres componentes principales: (1) Conjuntos de Datos Cuidadosamente Curados: Construimos un conjunto de datos de preentrenamiento equilibrado en conceptos de 85M, denominado LLaVA-OneVision-1.5-Mid-Training, y un conjunto de datos de instrucciones meticulosamente curado de 26M, llamado LLaVA-OneVision-1.5-Instruct, que en conjunto abarcan 64B tokens multimodales comprimidos. (2) Marco de Entrenamiento Eficiente: Desarrollamos un marco de entrenamiento eficiente completo de extremo a extremo que aprovecha una estrategia de empaquetado de datos paralelo fuera de línea para facilitar el entrenamiento de LLaVA-OneVision-1.5 dentro de un presupuesto de $16,000. (3) Rendimiento de Vanguardia: Los resultados experimentales demuestran que LLaVA-OneVision-1.5 ofrece un rendimiento excepcionalmente competitivo en una amplia gama de tareas posteriores. Específicamente, LLaVA-OneVision-1.5-8B supera a Qwen2.5-VL-7B en 18 de 27 puntos de referencia, y LLaVA-OneVision-1.5-4B supera a Qwen2.5-VL-3B en los 27 puntos de referencia. Anticipamos lanzar LLaVA-OneVision-1.5-RL en breve y alentamos a la comunidad a esperar más actualizaciones.
English
We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models (LMMs) that achieve state-of-the-art performance with significantly reduced computational and financial costs. Different from the existing works, LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for building high-quality vision-language models entirely from scratch. The LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale Curated Datasets: We construct an 85M concept-balanced pretraining dataset LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed multimodal tokens. (2) Efficient Training Framework: We develop a complete end-to-end efficient training framework leveraging an offline parallel data packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a $16,000 budget. (3) State-of-the-art Performance: Experimental results demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive performance across a broad range of downstream tasks. Specifically, LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community to await further updates.
PDF243September 30, 2025