ChatPaper.aiChatPaper

LLaVA-OneVision-1.5: Un Framework Completamente Aperto per l'Addestramento Multimodale Democratizzato

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

September 28, 2025
Autori: Xiang An, Yin Xie, Kaicheng Yang, Wenkang Zhang, Xiuwei Zhao, Zheng Cheng, Yirui Wang, Songcen Xu, Changrui Chen, Chunsheng Wu, Huajie Tan, Chunyuan Li, Jing Yang, Jie Yu, Xiyao Wang, Bin Qin, Yumeng Wang, Zizhen Yan, Ziyong Feng, Ziwei Liu, Bo Li, Jiankang Deng
cs.AI

Abstract

Presentiamo LLaVA-OneVision-1.5, una nuova famiglia di Large Multimodal Models (LMM) che raggiunge prestazioni all'avanguardia con costi computazionali e finanziari significativamente ridotti. A differenza dei lavori esistenti, LLaVA-OneVision-1.5 offre un framework aperto, efficiente e riproducibile per costruire modelli visione-linguaggio di alta qualità completamente da zero. Il rilascio di LLaVA-OneVision-1.5 comprende tre componenti principali: (1) Dataset Curati su Larga Scala: Abbiamo costruito un dataset di pre-addestramento bilanciato di 85M concetti, LLaVA-OneVision-1.5-Mid-Training, e un dataset di istruzioni curato meticolosamente di 26M, LLaVA-OneVision-1.5-Instruct, che insieme comprendono 64B token multimodali compressi. (2) Framework di Addestramento Efficiente: Abbiamo sviluppato un framework di addestramento end-to-end completo che sfrutta una strategia di impacchettamento dati parallelo offline per facilitare l'addestramento di LLaVA-OneVision-1.5 con un budget di $16,000. (3) Prestazioni all'Avanguardia: I risultati sperimentali dimostrano che LLaVA-OneVision-1.5 offre prestazioni eccezionalmente competitive su un'ampia gamma di task downstream. Nello specifico, LLaVA-OneVision-1.5-8B supera Qwen2.5-VL-7B su 18 dei 27 benchmark, e LLaVA-OneVision-1.5-4B supera Qwen2.5-VL-3B su tutti i 27 benchmark. Prevediamo di rilasciare a breve LLaVA-OneVision-1.5-RL e incoraggiamo la comunità ad attendere ulteriori aggiornamenti.
English
We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models (LMMs) that achieve state-of-the-art performance with significantly reduced computational and financial costs. Different from the existing works, LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for building high-quality vision-language models entirely from scratch. The LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale Curated Datasets: We construct an 85M concept-balanced pretraining dataset LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed multimodal tokens. (2) Efficient Training Framework: We develop a complete end-to-end efficient training framework leveraging an offline parallel data packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a $16,000 budget. (3) State-of-the-art Performance: Experimental results demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive performance across a broad range of downstream tasks. Specifically, LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community to await further updates.
PDF444September 30, 2025