LLaVA-OneVision-1.5: Полностью открытая платформа для демократизированного мультимодального обучения
LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
September 28, 2025
Авторы: Xiang An, Yin Xie, Kaicheng Yang, Wenkang Zhang, Xiuwei Zhao, Zheng Cheng, Yirui Wang, Songcen Xu, Changrui Chen, Chunsheng Wu, Huajie Tan, Chunyuan Li, Jing Yang, Jie Yu, Xiyao Wang, Bin Qin, Yumeng Wang, Zizhen Yan, Ziyong Feng, Ziwei Liu, Bo Li, Jiankang Deng
cs.AI
Аннотация
Мы представляем LLaVA-OneVision-1.5, новое семейство крупных мультимодальных моделей (LMM), которые достигают передовых результатов при значительно сниженных вычислительных и финансовых затратах. В отличие от существующих работ, LLaVA-OneVision-1.5 предоставляет открытую, эффективную и воспроизводимую платформу для создания высококачественных моделей, связывающих зрение и язык, с нуля. Релиз LLaVA-OneVision-1.5 включает три основных компонента: (1) Крупномасштабные курируемые наборы данных: мы создали сбалансированный по концепциям набор данных для предварительного обучения LLaVA-OneVision-1.5-Mid-Training объемом 85 млн и тщательно отобранный набор данных с инструкциями LLaVA-OneVision-1.5-Instruct объемом 26 млн, которые вместе охватывают 64 млрд сжатых мультимодальных токенов. (2) Эффективная платформа обучения: мы разработали полную сквозную эффективную платформу обучения, использующую стратегию оффлайн-параллельной упаковки данных, что позволяет обучать LLaVA-OneVision-1.5 в рамках бюджета в $16 000. (3) Передовые результаты: экспериментальные данные показывают, что LLaVA-OneVision-1.5 демонстрирует исключительно конкурентоспособные результаты в широком спектре задач. В частности, LLaVA-OneVision-1.5-8B превосходит Qwen2.5-VL-7B на 18 из 27 бенчмарков, а LLaVA-OneVision-1.5-4B превосходит Qwen2.5-VL-3B на всех 27 бенчмарках. Мы ожидаем скорого релиза LLaVA-OneVision-1.5-RL и призываем сообщество ожидать дальнейших обновлений.
English
We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models
(LMMs) that achieve state-of-the-art performance with significantly reduced
computational and financial costs. Different from the existing works,
LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for
building high-quality vision-language models entirely from scratch. The
LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale
Curated Datasets: We construct an 85M concept-balanced pretraining dataset
LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction
dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed
multimodal tokens. (2) Efficient Training Framework: We develop a complete
end-to-end efficient training framework leveraging an offline parallel data
packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a
$16,000 budget. (3) State-of-the-art Performance: Experimental results
demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive
performance across a broad range of downstream tasks. Specifically,
LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and
LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We
anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community
to await further updates.