Rapport technique Baichuan-OmniBaichuan-Omni Technical Report
Les capacités multimodales saillantes et l'expérience interactive de GPT-4o soulignent son rôle crucial dans les applications pratiques, cependant il lui manque un équivalent open-source performant. Dans cet article, nous présentons Baichuan-Omni, le premier Modèle de Langage Large Multimodal (MLLM) open-source de 7 milliards d'éléments capable de traiter et d'analyser simultanément les modalités d'image, de vidéo, d'audio et de texte, tout en offrant une expérience interactive multimodale avancée et des performances solides. Nous proposons un schéma d'entraînement multimodal efficace commençant par un modèle de 7 milliards d'éléments et se déroulant à travers deux étapes d'alignement multimodal et de fine-tuning multitâche à travers les modalités audio, image, vidéo et texte. Cette approche dote le modèle de langage de la capacité de traiter efficacement les données visuelles et audio. En démontrant des performances solides à travers divers benchmarks omni-modaux et multimodaux, nous visons à faire de cette contribution une référence compétitive pour la communauté open-source dans l'avancement de la compréhension multimodale et de l'interaction en temps réel.