Rapport technique Baichuan-Omni
Baichuan-Omni Technical Report
October 11, 2024
Auteurs: Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
cs.AI
Résumé
Les capacités multimodales saillantes et l'expérience interactive de GPT-4o soulignent son rôle crucial dans les applications pratiques, cependant il lui manque un équivalent open-source performant. Dans cet article, nous présentons Baichuan-Omni, le premier Modèle de Langage Large Multimodal (MLLM) open-source de 7 milliards d'éléments capable de traiter et d'analyser simultanément les modalités d'image, de vidéo, d'audio et de texte, tout en offrant une expérience interactive multimodale avancée et des performances solides. Nous proposons un schéma d'entraînement multimodal efficace commençant par un modèle de 7 milliards d'éléments et se déroulant à travers deux étapes d'alignement multimodal et de fine-tuning multitâche à travers les modalités audio, image, vidéo et texte. Cette approche dote le modèle de langage de la capacité de traiter efficacement les données visuelles et audio. En démontrant des performances solides à travers divers benchmarks omni-modaux et multimodaux, nous visons à faire de cette contribution une référence compétitive pour la communauté open-source dans l'avancement de la compréhension multimodale et de l'interaction en temps réel.
English
The salient multimodal capabilities and interactive experience of GPT-4o
highlight its critical role in practical applications, yet it lacks a
high-performing open-source counterpart. In this paper, we introduce
Baichuan-Omni, the first open-source 7B Multimodal Large Language Model (MLLM)
adept at concurrently processing and analyzing modalities of image, video,
audio, and text, while delivering an advanced multimodal interactive experience
and strong performance. We propose an effective multimodal training schema
starting with 7B model and proceeding through two stages of multimodal
alignment and multitask fine-tuning across audio, image, video, and text modal.
This approach equips the language model with the ability to handle visual and
audio data effectively. Demonstrating strong performance across various
omni-modal and multimodal benchmarks, we aim for this contribution to serve as
a competitive baseline for the open-source community in advancing multimodal
understanding and real-time interaction.Summary
AI-Generated Summary