LLaVA-OneVision-1.5 : Un cadre entièrement ouvert pour une formation multimodale démocratisée

papers.abstract

Nous présentons LLaVA-OneVision-1.5, une nouvelle famille de modèles multimodaux de grande taille (LMM) qui atteignent des performances de pointe avec des coûts de calcul et financiers significativement réduits. Contrairement aux travaux existants, LLaVA-OneVision-1.5 propose un cadre ouvert, efficace et reproductible pour construire des modèles vision-langage de haute qualité entièrement à partir de zéro. La version LLaVA-OneVision-1.5 comprend trois composants principaux : (1) **Jeux de données à grande échelle et soigneusement sélectionnés** : Nous avons construit un jeu de données de pré-entraînement équilibré de 85 millions de concepts, LLaVA-OneVision-1.5-Mid-Training, ainsi qu'un jeu de données d'instructions méticuleusement sélectionné de 26 millions, LLaVA-OneVision-1.5-Instruct, englobant collectivement 64 milliards de tokens multimodaux compressés. (2) **Cadre d'entraînement efficace** : Nous avons développé un cadre d'entraînement complet et efficace de bout en bout, exploitant une stratégie de regroupement parallèle de données hors ligne pour faciliter l'entraînement de LLaVA-OneVision-1.5 avec un budget de 16 000 dollars. (3) **Performances de pointe** : Les résultats expérimentaux démontrent que LLaVA-OneVision-1.5 offre des performances exceptionnellement compétitives sur un large éventail de tâches en aval. Plus précisément, LLaVA-OneVision-1.5-8B surpasse Qwen2.5-VL-7B sur 18 des 27 benchmarks, et LLaVA-OneVision-1.5-4B dépasse Qwen2.5-VL-3B sur l'ensemble des 27 benchmarks. Nous prévoyons de publier prochainement LLaVA-OneVision-1.5-RL et encourageons la communauté à attendre les mises à jour ultérieures.

English

We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models (LMMs) that achieve state-of-the-art performance with significantly reduced computational and financial costs. Different from the existing works, LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for building high-quality vision-language models entirely from scratch. The LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale Curated Datasets: We construct an 85M concept-balanced pretraining dataset LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed multimodal tokens. (2) Efficient Training Framework: We develop a complete end-to-end efficient training framework leveraging an offline parallel data packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a $16,000 budget. (3) State-of-the-art Performance: Experimental results demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive performance across a broad range of downstream tasks. Specifically, LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community to await further updates.

LLaVA-OneVision-1.5 : Un cadre entièrement ouvert pour une formation multimodale démocratisée

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

papers.abstract

Support