ChatPaper.aiChatPaper

바이츄안-옴니 기술 보고서

Baichuan-Omni Technical Report

October 11, 2024
저자: Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
cs.AI

초록

GPT-4o의 중요한 다중 모달 기능과 상호 작용 경험은 실용적 응용 프로그램에서의 중요한 역할을 강조하지만 높은 성능의 오픈 소스 대응물이 부족합니다. 본 논문에서는 이미지, 비디오, 오디오 및 텍스트의 모달을 동시에 처리하고 분석하는 능력을 갖춘 최초의 오픈 소스 7B 다중 모달 대형 언어 모델인 Baichuan-Omni를 소개합니다. 이 모델은 고급 다중 모달 상호 작용 경험과 강력한 성능을 제공합니다. 우리는 7B 모델을 시작으로 하여 오디오, 이미지, 비디오 및 텍스트 모달을 효과적으로 처리할 수 있는 능력을 갖춘 언어 모델을 갖추기 위해 다중 모달 정렬 및 멀티태스크 파인튜닝의 두 단계를 거친 효과적인 다중 모달 훈련 스키마를 제안합니다. 다양한 옴니-모달 및 다중 모달 벤치마크에서 강력한 성능을 보여주며, 이 기여가 다중 모달 이해와 실시간 상호 작용을 발전시키는 오픈 소스 커뮤니티를 위한 경쟁력 있는 기준으로 기여하길 희망합니다.
English
The salient multimodal capabilities and interactive experience of GPT-4o highlight its critical role in practical applications, yet it lacks a high-performing open-source counterpart. In this paper, we introduce Baichuan-Omni, the first open-source 7B Multimodal Large Language Model (MLLM) adept at concurrently processing and analyzing modalities of image, video, audio, and text, while delivering an advanced multimodal interactive experience and strong performance. We propose an effective multimodal training schema starting with 7B model and proceeding through two stages of multimodal alignment and multitask fine-tuning across audio, image, video, and text modal. This approach equips the language model with the ability to handle visual and audio data effectively. Demonstrating strong performance across various omni-modal and multimodal benchmarks, we aim for this contribution to serve as a competitive baseline for the open-source community in advancing multimodal understanding and real-time interaction.

Summary

AI-Generated Summary

PDF888November 16, 2024