ChatPaper.aiChatPaper

LLaVA-OneVision-1.5: Volledig Open Framework voor Gedemocratiseerde Multimodale Training

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

September 28, 2025
Auteurs: Xiang An, Yin Xie, Kaicheng Yang, Wenkang Zhang, Xiuwei Zhao, Zheng Cheng, Yirui Wang, Songcen Xu, Changrui Chen, Chunsheng Wu, Huajie Tan, Chunyuan Li, Jing Yang, Jie Yu, Xiyao Wang, Bin Qin, Yumeng Wang, Zizhen Yan, Ziyong Feng, Ziwei Liu, Bo Li, Jiankang Deng
cs.AI

Samenvatting

We presenteren LLaVA-OneVision-1.5, een nieuwe familie van Large Multimodal Models (LMMs) die state-of-the-art prestaties leveren met aanzienlijk lagere computationele en financiële kosten. In tegenstelling tot bestaande werken biedt LLaVA-OneVision-1.5 een open, efficiënt en reproduceerbaar raamwerk voor het bouwen van hoogwaardige visie-taalmodellen volledig vanaf nul. De release van LLaVA-OneVision-1.5 omvat drie primaire componenten: (1) Grootgeschalen Gecureerde Datasets: We hebben een 85M concept-gebalanceerde pretrainingsdataset LLaVA-OneVision-1.5-Mid-Training en een zorgvuldig gecureerde 26M instructiedataset LLaVA-OneVision-1.5-Instruct geconstrueerd, die gezamenlijk 64B gecomprimeerde multimodale tokens omvatten. (2) Efficiënt Trainingsraamwerk: We hebben een compleet end-to-end efficiënt trainingsraamwerk ontwikkeld dat gebruikmaakt van een offline parallelle datapackingstrategie om de training van LLaVA-OneVision-1.5 mogelijk te maken binnen een budget van $16.000. (3) State-of-the-art Prestaties: Experimentele resultaten tonen aan dat LLaVA-OneVision-1.5 uitzonderlijk competitieve prestaties levert over een breed scala aan downstreamtaken. Specifiek presteert LLaVA-OneVision-1.5-8B beter dan Qwen2.5-VL-7B op 18 van de 27 benchmarks, en LLaVA-OneVision-1.5-4B overtreft Qwen2.5-VL-3B op alle 27 benchmarks. We verwachten LLaVA-OneVision-1.5-RL binnenkort uit te brengen en moedigen de gemeenschap aan om verdere updates af te wachten.
English
We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models (LMMs) that achieve state-of-the-art performance with significantly reduced computational and financial costs. Different from the existing works, LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for building high-quality vision-language models entirely from scratch. The LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale Curated Datasets: We construct an 85M concept-balanced pretraining dataset LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed multimodal tokens. (2) Efficient Training Framework: We develop a complete end-to-end efficient training framework leveraging an offline parallel data packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a $16,000 budget. (3) State-of-the-art Performance: Experimental results demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive performance across a broad range of downstream tasks. Specifically, LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community to await further updates.
PDF444September 30, 2025