LLaVA-OneVision-1.5: Volledig Open Framework voor Gedemocratiseerde Multimodale Training

Samenvatting

We presenteren LLaVA-OneVision-1.5, een nieuwe familie van Large Multimodal Models (LMMs) die state-of-the-art prestaties leveren met aanzienlijk lagere computationele en financiële kosten. In tegenstelling tot bestaande werken biedt LLaVA-OneVision-1.5 een open, efficiënt en reproduceerbaar raamwerk voor het bouwen van hoogwaardige visie-taalmodellen volledig vanaf nul. De release van LLaVA-OneVision-1.5 omvat drie primaire componenten: (1) Grootgeschalen Gecureerde Datasets: We hebben een 85M concept-gebalanceerde pretrainingsdataset LLaVA-OneVision-1.5-Mid-Training en een zorgvuldig gecureerde 26M instructiedataset LLaVA-OneVision-1.5-Instruct geconstrueerd, die gezamenlijk 64B gecomprimeerde multimodale tokens omvatten. (2) Efficiënt Trainingsraamwerk: We hebben een compleet end-to-end efficiënt trainingsraamwerk ontwikkeld dat gebruikmaakt van een offline parallelle datapackingstrategie om de training van LLaVA-OneVision-1.5 mogelijk te maken binnen een budget van $16.000. (3) State-of-the-art Prestaties: Experimentele resultaten tonen aan dat LLaVA-OneVision-1.5 uitzonderlijk competitieve prestaties levert over een breed scala aan downstreamtaken. Specifiek presteert LLaVA-OneVision-1.5-8B beter dan Qwen2.5-VL-7B op 18 van de 27 benchmarks, en LLaVA-OneVision-1.5-4B overtreft Qwen2.5-VL-3B op alle 27 benchmarks. We verwachten LLaVA-OneVision-1.5-RL binnenkort uit te brengen en moedigen de gemeenschap aan om verdere updates af te wachten.

English

We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models (LMMs) that achieve state-of-the-art performance with significantly reduced computational and financial costs. Different from the existing works, LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for building high-quality vision-language models entirely from scratch. The LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale Curated Datasets: We construct an 85M concept-balanced pretraining dataset LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed multimodal tokens. (2) Efficient Training Framework: We develop a complete end-to-end efficient training framework leveraging an offline parallel data packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a $16,000 budget. (3) State-of-the-art Performance: Experimental results demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive performance across a broad range of downstream tasks. Specifically, LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community to await further updates.

LLaVA-OneVision-1.5: Volledig Open Framework voor Gedemocratiseerde Multimodale Training

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

Samenvatting

Support