Informe Técnico Baichuan-Omni
Baichuan-Omni Technical Report
October 11, 2024
Autores: Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
cs.AI
Resumen
Las destacadas capacidades multimodales y la experiencia interactiva de GPT-4o resaltan su papel crítico en aplicaciones prácticas, sin embargo, carece de un equivalente de código abierto de alto rendimiento. En este documento, presentamos Baichuan-Omni, el primer Modelo de Lenguaje Multimodal Grande (MLLM) de 7B de código abierto capaz de procesar y analizar simultáneamente modalidades de imagen, video, audio y texto, brindando una experiencia interactiva multimodal avanzada y un rendimiento sólido. Proponemos un esquema efectivo de entrenamiento multimodal que comienza con un modelo de 7B y avanza a través de dos etapas de alineación multimodal y ajuste fino de tareas múltiples en audio, imagen, video y texto. Este enfoque dota al modelo de lenguaje con la capacidad de manejar datos visuales y de audio de manera efectiva. Demostrando un sólido rendimiento en varios benchmarks omni-modales y multimodales, aspiramos a que esta contribución sirva como un punto de referencia competitivo para la comunidad de código abierto en el avance de la comprensión multimodal y la interacción en tiempo real.
English
The salient multimodal capabilities and interactive experience of GPT-4o
highlight its critical role in practical applications, yet it lacks a
high-performing open-source counterpart. In this paper, we introduce
Baichuan-Omni, the first open-source 7B Multimodal Large Language Model (MLLM)
adept at concurrently processing and analyzing modalities of image, video,
audio, and text, while delivering an advanced multimodal interactive experience
and strong performance. We propose an effective multimodal training schema
starting with 7B model and proceeding through two stages of multimodal
alignment and multitask fine-tuning across audio, image, video, and text modal.
This approach equips the language model with the ability to handle visual and
audio data effectively. Demonstrating strong performance across various
omni-modal and multimodal benchmarks, we aim for this contribution to serve as
a competitive baseline for the open-source community in advancing multimodal
understanding and real-time interaction.Summary
AI-Generated Summary