Ola: Het Verleggen van de Grenzen van het Omni-Modale Taalmodel met Progressieve Modaliteitsuitlijning
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
February 6, 2025
Auteurs: Zuyan Liu, Yuhao Dong, Jiahui Wang, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
cs.AI
Samenvatting
Recente ontwikkelingen in grote taalmodellen, met name na GPT-4o, hebben een toenemende interesse aangewakkerd in het ontwikkelen van omni-modale modellen die in staat zijn om meer modaliteiten te begrijpen. Hoewel er enkele open-source alternatieven zijn ontstaan, is er nog steeds een opmerkelijke achterstand op gespecialiseerde single-modality modellen wat betreft prestaties. In dit artikel presenteren we Ola, een omni-modaal taalmodel dat concurrerende prestaties behaalt op het gebied van beeld-, video- en audio begrip in vergelijking met gespecialiseerde tegenhangers. De kern van het ontwerp van Ola ligt in zijn progressieve modaliteitsuitlijningsstrategie die de ondersteunende modaliteit van het taalmodel progressief uitbreidt. Ons trainingsproces begint met de meest onderscheidende modaliteiten: beeld en tekst, waarna we geleidelijk de vaardigheden van het model uitbreiden met spraakgegevens die taal- en audiokennis verbinden, en videogegevens die alle modaliteiten verbinden. Het progressieve leerproces stelt ons ook in staat om een relatief kleine hoeveelheid cross-modale uitlijningsgegevens te behouden, waardoor het ontwikkelen van omni-modale modellen van bestaande visie-taalmodellen gemakkelijk en minder kostbaar wordt. Bovendien hebben we, om een geavanceerde interactieve ervaring zoals GPT-4o te ontsluiten, een oplossing op zinsniveau ontworpen voor het genereren van spraak tijdens het streamen. Uitgebreide experimenten tonen aan dat Ola bestaande open omni-modale LLMs overtreft op alle modaliteiten, terwijl het zeer concurrerende prestaties behaalt in vergelijking met gespecialiseerde modellen van vergelijkbare grootte. We streven ernaar om van Ola een volledig open omni-modale begripoplossing te maken om toekomstig onderzoek op dit opkomende gebied te bevorderen. Modelgewichten, code en gegevens zijn open-source beschikbaar op https://github.com/Ola-Omni/Ola.
English
Recent advances in large language models, particularly following GPT-4o, have
sparked increasing interest in developing omni-modal models capable of
understanding more modalities. While some open-source alternatives have
emerged, there is still a notable lag behind specialized single-modality models
in performance. In this paper, we present Ola, an Omni-modal language model
that achieves competitive performance across image, video, and audio
understanding compared to specialized counterparts. The core design of Ola lies
in its progressive modality alignment strategy that extends the supporting
modality of the language model progressively. Our training pipeline begins with
the most distinct modalities: image and text, then gradually expands the skill
sets of the model using speech data that connects language and audio knowledge,
and video data that connects all modalities. The progressive learning pipeline
also enables us to maintain a relatively small size of the cross-modal
alignment data, making developing omni-modal from existing vision-language
models easy and less costly. Moreover, to unlock an advanced interactive
experience like GPT-4o, we further design a sentence-wise decoding solution for
streaming speech generation. Extensive experiments demonstrate that Ola
surpasses existing open omni-modal LLMs across all modalities while achieving
highly competitive performance compared to state-of-the-art specialized models
of similar sizes. We aim to make Ola a fully open omni-modal understanding
solution to advance future research in this emerging field. Model weights,
code, and data are open-sourced at https://github.com/Ola-Omni/Ola.Summary
AI-Generated Summary