LLaVA-OneVision-1.5: Un Framework Completamente Aperto per l'Addestramento Multimodale Democratizzato

Abstract

Presentiamo LLaVA-OneVision-1.5, una nuova famiglia di Large Multimodal Models (LMM) che raggiunge prestazioni all'avanguardia con costi computazionali e finanziari significativamente ridotti. A differenza dei lavori esistenti, LLaVA-OneVision-1.5 offre un framework aperto, efficiente e riproducibile per costruire modelli visione-linguaggio di alta qualità completamente da zero. Il rilascio di LLaVA-OneVision-1.5 comprende tre componenti principali: (1) Dataset Curati su Larga Scala: Abbiamo costruito un dataset di pre-addestramento bilanciato di 85M concetti, LLaVA-OneVision-1.5-Mid-Training, e un dataset di istruzioni curato meticolosamente di 26M, LLaVA-OneVision-1.5-Instruct, che insieme comprendono 64B token multimodali compressi. (2) Framework di Addestramento Efficiente: Abbiamo sviluppato un framework di addestramento end-to-end completo che sfrutta una strategia di impacchettamento dati parallelo offline per facilitare l'addestramento di LLaVA-OneVision-1.5 con un budget di $16,000. (3) Prestazioni all'Avanguardia: I risultati sperimentali dimostrano che LLaVA-OneVision-1.5 offre prestazioni eccezionalmente competitive su un'ampia gamma di task downstream. Nello specifico, LLaVA-OneVision-1.5-8B supera Qwen2.5-VL-7B su 18 dei 27 benchmark, e LLaVA-OneVision-1.5-4B supera Qwen2.5-VL-3B su tutti i 27 benchmark. Prevediamo di rilasciare a breve LLaVA-OneVision-1.5-RL e incoraggiamo la comunità ad attendere ulteriori aggiornamenti.

English

We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models (LMMs) that achieve state-of-the-art performance with significantly reduced computational and financial costs. Different from the existing works, LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for building high-quality vision-language models entirely from scratch. The LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale Curated Datasets: We construct an 85M concept-balanced pretraining dataset LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed multimodal tokens. (2) Efficient Training Framework: We develop a complete end-to-end efficient training framework leveraging an offline parallel data packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a $16,000 budget. (3) State-of-the-art Performance: Experimental results demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive performance across a broad range of downstream tasks. Specifically, LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community to await further updates.

LLaVA-OneVision-1.5: Un Framework Completamente Aperto per l'Addestramento Multimodale Democratizzato

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

Abstract

Support