Technisch Rapport Baichuan-Omni
Baichuan-Omni Technical Report
October 11, 2024
Auteurs: Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
cs.AI
Samenvatting
De opvallende multimodale mogelijkheden en interactieve ervaring van GPT-4o benadrukken de cruciale rol ervan in praktische toepassingen, maar het ontbreekt aan een hoogwaardig open-source equivalent. In dit artikel introduceren we Baichuan-Omni, het eerste open-source 7B Multimodaal Groot Taalmodel (MLLM) dat bedreven is in gelijktijdige verwerking en analyse van modaliteiten van beeld, video, audio en tekst, terwijl het een geavanceerde multimodale interactieve ervaring en sterke prestaties levert. We stellen een effectief multimodaal trainingschema voor dat begint met het 7B-model en doorgaat via twee fasen van multimodale afstemming en multitask fijnafstemming over audio, beeld, video en tekstmodaliteiten. Deze aanpak rust het taalmodel uit met de mogelijkheid om visuele en audio data effectief te verwerken. Door sterke prestaties te tonen op verschillende omni-modale en multimodale benchmarks, streven we ernaar dat deze bijdrage dient als een competitieve basislijn voor de open-source gemeenschap bij het bevorderen van multimodale begrip en realtime interactie.
English
The salient multimodal capabilities and interactive experience of GPT-4o
highlight its critical role in practical applications, yet it lacks a
high-performing open-source counterpart. In this paper, we introduce
Baichuan-Omni, the first open-source 7B Multimodal Large Language Model (MLLM)
adept at concurrently processing and analyzing modalities of image, video,
audio, and text, while delivering an advanced multimodal interactive experience
and strong performance. We propose an effective multimodal training schema
starting with 7B model and proceeding through two stages of multimodal
alignment and multitask fine-tuning across audio, image, video, and text modal.
This approach equips the language model with the ability to handle visual and
audio data effectively. Demonstrating strong performance across various
omni-modal and multimodal benchmarks, we aim for this contribution to serve as
a competitive baseline for the open-source community in advancing multimodal
understanding and real-time interaction.Summary
AI-Generated Summary