ChatPaper.aiChatPaper

LLaVA-OneVision-1.5 : Un cadre entièrement ouvert pour une formation multimodale démocratisée

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

September 28, 2025
papers.authors: Xiang An, Yin Xie, Kaicheng Yang, Wenkang Zhang, Xiuwei Zhao, Zheng Cheng, Yirui Wang, Songcen Xu, Changrui Chen, Chunsheng Wu, Huajie Tan, Chunyuan Li, Jing Yang, Jie Yu, Xiyao Wang, Bin Qin, Yumeng Wang, Zizhen Yan, Ziyong Feng, Ziwei Liu, Bo Li, Jiankang Deng
cs.AI

papers.abstract

Nous présentons LLaVA-OneVision-1.5, une nouvelle famille de modèles multimodaux de grande taille (LMM) qui atteignent des performances de pointe avec des coûts de calcul et financiers significativement réduits. Contrairement aux travaux existants, LLaVA-OneVision-1.5 propose un cadre ouvert, efficace et reproductible pour construire des modèles vision-langage de haute qualité entièrement à partir de zéro. La version LLaVA-OneVision-1.5 comprend trois composants principaux : (1) **Jeux de données à grande échelle et soigneusement sélectionnés** : Nous avons construit un jeu de données de pré-entraînement équilibré de 85 millions de concepts, LLaVA-OneVision-1.5-Mid-Training, ainsi qu'un jeu de données d'instructions méticuleusement sélectionné de 26 millions, LLaVA-OneVision-1.5-Instruct, englobant collectivement 64 milliards de tokens multimodaux compressés. (2) **Cadre d'entraînement efficace** : Nous avons développé un cadre d'entraînement complet et efficace de bout en bout, exploitant une stratégie de regroupement parallèle de données hors ligne pour faciliter l'entraînement de LLaVA-OneVision-1.5 avec un budget de 16 000 dollars. (3) **Performances de pointe** : Les résultats expérimentaux démontrent que LLaVA-OneVision-1.5 offre des performances exceptionnellement compétitives sur un large éventail de tâches en aval. Plus précisément, LLaVA-OneVision-1.5-8B surpasse Qwen2.5-VL-7B sur 18 des 27 benchmarks, et LLaVA-OneVision-1.5-4B dépasse Qwen2.5-VL-3B sur l'ensemble des 27 benchmarks. Nous prévoyons de publier prochainement LLaVA-OneVision-1.5-RL et encourageons la communauté à attendre les mises à jour ultérieures.
English
We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models (LMMs) that achieve state-of-the-art performance with significantly reduced computational and financial costs. Different from the existing works, LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for building high-quality vision-language models entirely from scratch. The LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale Curated Datasets: We construct an 85M concept-balanced pretraining dataset LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed multimodal tokens. (2) Efficient Training Framework: We develop a complete end-to-end efficient training framework leveraging an offline parallel data packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a $16,000 budget. (3) State-of-the-art Performance: Experimental results demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive performance across a broad range of downstream tasks. Specifically, LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community to await further updates.
PDF243September 30, 2025