Baichuan-Omni Technischer Bericht
Baichuan-Omni Technical Report
October 11, 2024
Autoren: Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
cs.AI
Zusammenfassung
Die herausragenden multimodalen Fähigkeiten und die interaktive Erfahrung von GPT-4o betonen seine entscheidende Rolle in praktischen Anwendungen, jedoch fehlt es an einer leistungsstarken Open-Source-Gegenstück. In diesem Paper stellen wir Baichuan-Omni vor, das erste Open-Source 7B Multimodal Large Language Model (MLLM), das gleichzeitig Modalitäten von Bild, Video, Audio und Text verarbeiten und analysieren kann, während es eine fortschrittliche multimodale interaktive Erfahrung und starke Leistung bietet. Wir schlagen ein effektives multimodales Schulungsschema vor, das mit dem 7B-Modell beginnt und sich durch zwei Stufen der multimodalen Ausrichtung und des Multitask-Finetunings über Audio, Bild, Video und Text erstreckt. Dieser Ansatz stattet das Sprachmodell mit der Fähigkeit aus, visuelle und Audio-Daten effektiv zu verarbeiten. Durch die Demonstration starker Leistungen in verschiedenen omni-modalen und multimodalen Benchmarks streben wir an, dass dieser Beitrag als wettbewerbsfähige Basislinie für die Open-Source-Community dient, um das Verständnis für multimodale Interaktionen in Echtzeit voranzutreiben.
English
The salient multimodal capabilities and interactive experience of GPT-4o
highlight its critical role in practical applications, yet it lacks a
high-performing open-source counterpart. In this paper, we introduce
Baichuan-Omni, the first open-source 7B Multimodal Large Language Model (MLLM)
adept at concurrently processing and analyzing modalities of image, video,
audio, and text, while delivering an advanced multimodal interactive experience
and strong performance. We propose an effective multimodal training schema
starting with 7B model and proceeding through two stages of multimodal
alignment and multitask fine-tuning across audio, image, video, and text modal.
This approach equips the language model with the ability to handle visual and
audio data effectively. Demonstrating strong performance across various
omni-modal and multimodal benchmarks, we aim for this contribution to serve as
a competitive baseline for the open-source community in advancing multimodal
understanding and real-time interaction.Summary
AI-Generated Summary