ChatPaper.aiChatPaper

Ola: Empujando los Límites del Modelo de Lenguaje Omnimodal con Alineación Progresiva de Modalidades

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

February 6, 2025
Autores: Zuyan Liu, Yuhao Dong, Jiahui Wang, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao
cs.AI

Resumen

Los avances recientes en modelos de lenguaje grandes, especialmente tras GPT-4o, han generado un creciente interés en desarrollar modelos omni-modales capaces de comprender más modalidades. Aunque han surgido algunas alternativas de código abierto, aún existe un notable rezago en cuanto al rendimiento en comparación con modelos especializados de una sola modalidad. En este artículo, presentamos Ola, un modelo de lenguaje omni-modal que logra un rendimiento competitivo en la comprensión de imágenes, videos y audio en comparación con contrapartes especializadas. El diseño central de Ola radica en su estrategia progresiva de alineación de modalidades que extiende progresivamente la modalidad de soporte del modelo de lenguaje. Nuestro proceso de entrenamiento comienza con las modalidades más distintas: imagen y texto, para luego expandir gradualmente las habilidades del modelo utilizando datos de habla que conectan el conocimiento del lenguaje y el audio, y datos de video que conectan todas las modalidades. El proceso de aprendizaje progresivo también nos permite mantener un tamaño relativamente pequeño de los datos de alineación cruzada de modalidades, facilitando el desarrollo de modelos omni-modales a partir de modelos existentes de visión-lenguaje de manera sencilla y menos costosa. Además, para desbloquear una experiencia interactiva avanzada como GPT-4o, diseñamos una solución de decodificación por oraciones para la generación de habla en tiempo real. Experimentos extensos demuestran que Ola supera a los LLMs omni-modales abiertos existentes en todas las modalidades, logrando un rendimiento altamente competitivo en comparación con modelos especializados de tamaño similar de última generación. Nuestro objetivo es convertir a Ola en una solución de comprensión omni-modal totalmente abierta para avanzar en la investigación futura en este campo emergente. Los pesos del modelo, el código y los datos están disponibles en código abierto en https://github.com/Ola-Omni/Ola.
English
Recent advances in large language models, particularly following GPT-4o, have sparked increasing interest in developing omni-modal models capable of understanding more modalities. While some open-source alternatives have emerged, there is still a notable lag behind specialized single-modality models in performance. In this paper, we present Ola, an Omni-modal language model that achieves competitive performance across image, video, and audio understanding compared to specialized counterparts. The core design of Ola lies in its progressive modality alignment strategy that extends the supporting modality of the language model progressively. Our training pipeline begins with the most distinct modalities: image and text, then gradually expands the skill sets of the model using speech data that connects language and audio knowledge, and video data that connects all modalities. The progressive learning pipeline also enables us to maintain a relatively small size of the cross-modal alignment data, making developing omni-modal from existing vision-language models easy and less costly. Moreover, to unlock an advanced interactive experience like GPT-4o, we further design a sentence-wise decoding solution for streaming speech generation. Extensive experiments demonstrate that Ola surpasses existing open omni-modal LLMs across all modalities while achieving highly competitive performance compared to state-of-the-art specialized models of similar sizes. We aim to make Ola a fully open omni-modal understanding solution to advance future research in this emerging field. Model weights, code, and data are open-sourced at https://github.com/Ola-Omni/Ola.
PDF302February 7, 2025