바이츄안-옴니 기술 보고서Baichuan-Omni Technical Report
GPT-4o의 중요한 다중 모달 기능과 상호 작용 경험은 실용적 응용 프로그램에서의 중요한 역할을 강조하지만 높은 성능의 오픈 소스 대응물이 부족합니다. 본 논문에서는 이미지, 비디오, 오디오 및 텍스트의 모달을 동시에 처리하고 분석하는 능력을 갖춘 최초의 오픈 소스 7B 다중 모달 대형 언어 모델인 Baichuan-Omni를 소개합니다. 이 모델은 고급 다중 모달 상호 작용 경험과 강력한 성능을 제공합니다. 우리는 7B 모델을 시작으로 하여 오디오, 이미지, 비디오 및 텍스트 모달을 효과적으로 처리할 수 있는 능력을 갖춘 언어 모델을 갖추기 위해 다중 모달 정렬 및 멀티태스크 파인튜닝의 두 단계를 거친 효과적인 다중 모달 훈련 스키마를 제안합니다. 다양한 옴니-모달 및 다중 모달 벤치마크에서 강력한 성능을 보여주며, 이 기여가 다중 모달 이해와 실시간 상호 작용을 발전시키는 오픈 소스 커뮤니티를 위한 경쟁력 있는 기준으로 기여하길 희망합니다.