ChatPaper.aiChatPaper

LLaVA-OneVision-1.5:民主化されたマルチモーダルトレーニングのための完全オープンフレームワーク

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

September 28, 2025
著者: Xiang An, Yin Xie, Kaicheng Yang, Wenkang Zhang, Xiuwei Zhao, Zheng Cheng, Yirui Wang, Songcen Xu, Changrui Chen, Chunsheng Wu, Huajie Tan, Chunyuan Li, Jing Yang, Jie Yu, Xiyao Wang, Bin Qin, Yumeng Wang, Zizhen Yan, Ziyong Feng, Ziwei Liu, Bo Li, Jiankang Deng
cs.AI

要旨

本論文では、計算コストと資金コストを大幅に削減しつつ、最先端の性能を達成する新たな大規模マルチモーダルモデル(LMM)ファミリーであるLLaVA-OneVision-1.5を提案する。既存の研究とは異なり、LLaVA-OneVision-1.5は、ゼロから高品質な視覚言語モデルを構築するためのオープンで効率的かつ再現可能なフレームワークを提供する。LLaVA-OneVision-1.5のリリースは、以下の3つの主要コンポーネントで構成される:(1)大規模キュレーションデータセット:85Mの概念バランス型事前学習データセットLLaVA-OneVision-1.5-Mid-Trainingと、厳選された26Mの指示データセットLLaVA-OneVision-1.5-Instructを構築し、合計64Bの圧縮マルチモーダルトークンを包含する。(2)効率的なトレーニングフレームワーク:オフライン並列データパッキング戦略を活用した完全なエンドツーエンドの効率的なトレーニングフレームワークを開発し、16,000ドルの予算内でLLaVA-OneVision-1.5のトレーニングを可能にする。(3)最先端の性能:実験結果は、LLaVA-OneVision-1.5が幅広い下流タスクにおいて非常に競争力のある性能を発揮することを示している。具体的には、LLaVA-OneVision-1.5-8Bは27のベンチマークのうち18でQwen2.5-VL-7Bを上回り、LLaVA-OneVision-1.5-4Bは27のベンチマーク全てでQwen2.5-VL-3Bを凌駕する。LLaVA-OneVision-1.5-RLのリリースを間もなく予定しており、コミュニティのさらなるアップデートを待つことを奨励する。
English
We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models (LMMs) that achieve state-of-the-art performance with significantly reduced computational and financial costs. Different from the existing works, LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for building high-quality vision-language models entirely from scratch. The LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale Curated Datasets: We construct an 85M concept-balanced pretraining dataset LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed multimodal tokens. (2) Efficient Training Framework: We develop a complete end-to-end efficient training framework leveraging an offline parallel data packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a $16,000 budget. (3) State-of-the-art Performance: Experimental results demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive performance across a broad range of downstream tasks. Specifically, LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community to await further updates.
PDF243September 30, 2025