Empurrando os Limites do Modelo de Linguagem Omni-Modal com Alinhamento Progressivo de Modalidades
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
February 6, 2025
Autores: Zuyan Liu, Yuhao Dong, Jiahui Wang, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
cs.AI
Resumo
Os avanços recentes em grandes modelos de linguagem, particularmente após o GPT-4o, têm despertado um interesse crescente no desenvolvimento de modelos omni-modais capazes de compreender mais modalidades. Embora algumas alternativas de código aberto tenham surgido, ainda há uma diferença significativa em relação ao desempenho dos modelos especializados de uma única modalidade. Neste artigo, apresentamos o Ola, um modelo de linguagem omni-modal que alcança desempenho competitivo em compreensão de imagem, vídeo e áudio em comparação com modelos especializados. O design central do Ola está em sua estratégia progressiva de alinhamento de modalidades, que estende progressivamente a modalidade de suporte do modelo de linguagem. Nosso pipeline de treinamento começa com as modalidades mais distintas: imagem e texto, expandindo gradualmente as habilidades do modelo utilizando dados de fala que conectam o conhecimento de linguagem e áudio, e dados de vídeo que conectam todas as modalidades. O pipeline de aprendizado progressivo também nos permite manter um tamanho relativamente pequeno dos dados de alinhamento cruzado de modalidades, facilitando o desenvolvimento de modelos omni-modais a partir de modelos existentes de visão-linguagem de forma mais fácil e econômica. Além disso, para desbloquear uma experiência interativa avançada como o GPT-4o, projetamos uma solução de decodificação por frase para geração de fala em tempo real. Experimentos extensivos demonstram que o Ola supera os LLMs omni-modais abertos existentes em todas as modalidades, alcançando um desempenho altamente competitivo em comparação com modelos especializados de tamanho similar de última geração. Nosso objetivo é tornar o Ola uma solução de compreensão omni-modal totalmente aberta para avançar a pesquisa futura nesse campo emergente. Os pesos do modelo, o código e os dados estão disponíveis em código aberto em https://github.com/Ola-Omni/Ola.
English
Recent advances in large language models, particularly following GPT-4o, have
sparked increasing interest in developing omni-modal models capable of
understanding more modalities. While some open-source alternatives have
emerged, there is still a notable lag behind specialized single-modality models
in performance. In this paper, we present Ola, an Omni-modal language model
that achieves competitive performance across image, video, and audio
understanding compared to specialized counterparts. The core design of Ola lies
in its progressive modality alignment strategy that extends the supporting
modality of the language model progressively. Our training pipeline begins with
the most distinct modalities: image and text, then gradually expands the skill
sets of the model using speech data that connects language and audio knowledge,
and video data that connects all modalities. The progressive learning pipeline
also enables us to maintain a relatively small size of the cross-modal
alignment data, making developing omni-modal from existing vision-language
models easy and less costly. Moreover, to unlock an advanced interactive
experience like GPT-4o, we further design a sentence-wise decoding solution for
streaming speech generation. Extensive experiments demonstrate that Ola
surpasses existing open omni-modal LLMs across all modalities while achieving
highly competitive performance compared to state-of-the-art specialized models
of similar sizes. We aim to make Ola a fully open omni-modal understanding
solution to advance future research in this emerging field. Model weights,
code, and data are open-sourced at https://github.com/Ola-Omni/Ola.Summary
AI-Generated Summary