ChatPaper.aiChatPaper

LLaVA-OneVision-1.5: Um Framework Totalmente Aberto para o Treinamento Democratizado Multimodal

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

September 28, 2025
Autores: Xiang An, Yin Xie, Kaicheng Yang, Wenkang Zhang, Xiuwei Zhao, Zheng Cheng, Yirui Wang, Songcen Xu, Changrui Chen, Chunsheng Wu, Huajie Tan, Chunyuan Li, Jing Yang, Jie Yu, Xiyao Wang, Bin Qin, Yumeng Wang, Zizhen Yan, Ziyong Feng, Ziwei Liu, Bo Li, Jiankang Deng
cs.AI

Resumo

Apresentamos o LLaVA-OneVision-1.5, uma nova família de Modelos Multimodais de Grande Escala (LMMs) que alcançam desempenho de ponta com custos computacionais e financeiros significativamente reduzidos. Diferente dos trabalhos existentes, o LLaVA-OneVision-1.5 oferece uma estrutura aberta, eficiente e reproduzível para a construção de modelos de visão e linguagem de alta qualidade totalmente do zero. O lançamento do LLaVA-OneVision-1.5 compreende três componentes principais: (1) Conjuntos de Dados Cuidadosamente Curatados em Grande Escala: Construímos um conjunto de dados de pré-treinamento balanceado por conceitos de 85M, o LLaVA-OneVision-1.5-Mid-Training, e um conjunto de dados de instruções meticulosamente curado de 26M, o LLaVA-OneVision-1.5-Instruct, que juntos abrangem 64B tokens multimodais comprimidos. (2) Estrutura de Treinamento Eficiente: Desenvolvemos uma estrutura de treinamento eficiente completa de ponta a ponta, aproveitando uma estratégia de empacotamento de dados paralelo offline para facilitar o treinamento do LLaVA-OneVision-1.5 dentro de um orçamento de $16.000. (3) Desempenho de Ponta: Resultados experimentais demonstram que o LLaVA-OneVision-1.5 produz um desempenho excepcionalmente competitivo em uma ampla gama de tarefas subsequentes. Especificamente, o LLaVA-OneVision-1.5-8B supera o Qwen2.5-VL-7B em 18 de 27 benchmarks, e o LLaVA-OneVision-1.5-4B supera o Qwen2.5-VL-3B em todos os 27 benchmarks. Antecipamos o lançamento do LLaVA-OneVision-1.5-RL em breve e encorajamos a comunidade a aguardar mais atualizações.
English
We present LLaVA-OneVision-1.5, a novel family of Large Multimodal Models (LMMs) that achieve state-of-the-art performance with significantly reduced computational and financial costs. Different from the existing works, LLaVA-OneVision-1.5 provides an open, efficient, and reproducible framework for building high-quality vision-language models entirely from scratch. The LLaVA-OneVision-1.5 release comprises three primary components: (1) Large-Scale Curated Datasets: We construct an 85M concept-balanced pretraining dataset LLaVA-OneVision-1.5-Mid-Traning and a meticulously curated 26M instruction dataset LLaVA-OneVision-1.5-Instruct, collectively encompassing 64B compressed multimodal tokens. (2) Efficient Training Framework: We develop a complete end-to-end efficient training framework leveraging an offline parallel data packing strategy to facilitate the training of LLaVA-OneVision-1.5 within a $16,000 budget. (3) State-of-the-art Performance: Experimental results demonstrate that LLaVA-OneVision1.5 yields exceptionally competitive performance across a broad range of downstream tasks. Specifically, LLaVA-OneVision-1.5-8B outperforms Qwen2.5-VL-7B on 18 of 27 benchmarks, and LLaVA-OneVision-1.5-4B surpasses Qwen2.5-VL-3B on all 27 benchmarks. We anticipate releasing LLaVA-OneVision-1.5-RL shortly and encourage the community to await further updates.
PDF444September 30, 2025