ChatPaper.aiChatPaper

Ola: Spingendo i confini del modello linguistico omni-modale con l'allineamento progressivo della modalità

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

February 6, 2025
Autori: Zuyan Liu, Yuhao Dong, Jiahui Wang, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
cs.AI

Abstract

I recenti progressi nei grandi modelli linguistici, in particolare a seguito del GPT-4o, hanno suscitato un crescente interesse nello sviluppo di modelli omni-modal capaci di comprendere più modalità. Sebbene siano emerse alcune alternative open-source, c'è ancora un notevole ritardo rispetto ai modelli specializzati a singola modalità in termini di prestazioni. In questo articolo presentiamo Ola, un modello linguistico omni-modale che raggiunge prestazioni competitive nella comprensione di immagini, video e audio rispetto ai corrispettivi specializzati. Il design principale di Ola risiede nella sua strategia progressiva di allineamento delle modalità che estende progressivamente la modalità di supporto del modello linguistico. Il nostro processo di addestramento inizia con le modalità più distinte: immagine e testo, per poi espandere gradualmente le capacità del modello utilizzando dati vocali che collegano la conoscenza del linguaggio e dell'audio, e dati video che collegano tutte le modalità. Il processo di apprendimento progressivo ci consente anche di mantenere una dimensione relativamente ridotta dei dati di allineamento cross-modale, semplificando lo sviluppo di modelli omni-modal da modelli esistenti di visione-linguaggio in modo facile e meno costoso. Inoltre, per sbloccare un'esperienza interattiva avanzata come il GPT-4o, progettiamo ulteriormente una soluzione di decodifica basata su frasi per la generazione di discorsi in streaming. Esperimenti estesi dimostrano che Ola supera i LLM omni-modali aperti esistenti in tutte le modalità, ottenendo prestazioni altamente competitive rispetto ai modelli specializzati all'avanguardia di dimensioni simili. Il nostro obiettivo è rendere Ola una soluzione di comprensione omni-modale completamente aperta per far progredire la ricerca futura in questo campo emergente. I pesi del modello, il codice e i dati sono disponibili su https://github.com/Ola-Omni/Ola.
English
Recent advances in large language models, particularly following GPT-4o, have sparked increasing interest in developing omni-modal models capable of understanding more modalities. While some open-source alternatives have emerged, there is still a notable lag behind specialized single-modality models in performance. In this paper, we present Ola, an Omni-modal language model that achieves competitive performance across image, video, and audio understanding compared to specialized counterparts. The core design of Ola lies in its progressive modality alignment strategy that extends the supporting modality of the language model progressively. Our training pipeline begins with the most distinct modalities: image and text, then gradually expands the skill sets of the model using speech data that connects language and audio knowledge, and video data that connects all modalities. The progressive learning pipeline also enables us to maintain a relatively small size of the cross-modal alignment data, making developing omni-modal from existing vision-language models easy and less costly. Moreover, to unlock an advanced interactive experience like GPT-4o, we further design a sentence-wise decoding solution for streaming speech generation. Extensive experiments demonstrate that Ola surpasses existing open omni-modal LLMs across all modalities while achieving highly competitive performance compared to state-of-the-art specialized models of similar sizes. We aim to make Ola a fully open omni-modal understanding solution to advance future research in this emerging field. Model weights, code, and data are open-sourced at https://github.com/Ola-Omni/Ola.

Summary

AI-Generated Summary

PDF302February 7, 2025