Ола: Расширение границ омни-модальной языковой модели с прогрессивным выравниванием модальности
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
February 6, 2025
Авторы: Zuyan Liu, Yuhao Dong, Jiahui Wang, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
cs.AI
Аннотация
Недавние достижения в области больших языковых моделей, особенно после GPT-4o, вызвали растущий интерес к разработке омни-модальных моделей, способных понимать больше модальностей. Хотя появились некоторые альтернативы с открытым исходным кодом, все еще заметно отстают по производительности от специализированных моделей с одной модальностью. В данной статье мы представляем Ola, омни-модальную языковую модель, достигающую конкурентоспособной производительности в понимании изображений, видео и аудио по сравнению со специализированными аналогами. Основное принципиальное решение Ola заключается в стратегии прогрессивной выравнивания модальностей, которая постепенно расширяет поддерживаемую модальность языковой модели. Наша система обучения начинается с наиболее различных модальностей: изображения и текста, затем постепенно расширяет набор навыков модели, используя речевые данные, соединяющие языковые и аудио знания, и видео данные, соединяющие все модальности. Прогрессивная система обучения также позволяет нам поддерживать относительно небольшой объем данных для кросс-модального выравнивания, что облегчает разработку омни-модальных моделей на основе существующих моделей видео-язык. Более того, чтобы создать продвинутое интерактивное взаимодействие, подобное GPT-4o, мы дополнительно разработали решение декодирования по предложениям для генерации речи в реальном времени. Обширные эксперименты показывают, что Ola превосходит существующие открытые омни-модальные LLM по всем модальностям, достигая высокой конкурентоспособной производительности по сравнению с современными специализированными моделями схожего размера. Наша цель - сделать Ola полностью открытым решением для омни-модального понимания, чтобы продвигать будущие исследования в этой развивающейся области. Веса модели, код и данные доступны по ссылке https://github.com/Ola-Omni/Ola.
English
Recent advances in large language models, particularly following GPT-4o, have
sparked increasing interest in developing omni-modal models capable of
understanding more modalities. While some open-source alternatives have
emerged, there is still a notable lag behind specialized single-modality models
in performance. In this paper, we present Ola, an Omni-modal language model
that achieves competitive performance across image, video, and audio
understanding compared to specialized counterparts. The core design of Ola lies
in its progressive modality alignment strategy that extends the supporting
modality of the language model progressively. Our training pipeline begins with
the most distinct modalities: image and text, then gradually expands the skill
sets of the model using speech data that connects language and audio knowledge,
and video data that connects all modalities. The progressive learning pipeline
also enables us to maintain a relatively small size of the cross-modal
alignment data, making developing omni-modal from existing vision-language
models easy and less costly. Moreover, to unlock an advanced interactive
experience like GPT-4o, we further design a sentence-wise decoding solution for
streaming speech generation. Extensive experiments demonstrate that Ola
surpasses existing open omni-modal LLMs across all modalities while achieving
highly competitive performance compared to state-of-the-art specialized models
of similar sizes. We aim to make Ola a fully open omni-modal understanding
solution to advance future research in this emerging field. Model weights,
code, and data are open-sourced at https://github.com/Ola-Omni/Ola.Summary
AI-Generated Summary