Relatório Técnico Baichuan-OmniBaichuan-Omni Technical Report
As salientes capacidades multimodais e a experiência interativa do GPT-4o destacam o seu papel crítico em aplicações práticas, no entanto, ele carece de um equivalente de código aberto de alto desempenho. Neste artigo, apresentamos o Baichuan-Omni, o primeiro Modelo de Linguagem Multimodal Grande (MLLM) de 7B de código aberto capaz de processar e analisar modalidades de imagem, vídeo, áudio e texto simultaneamente, proporcionando uma experiência interativa multimodal avançada e alto desempenho. Propomos um esquema de treinamento multimodal eficaz começando com o modelo de 7B e passando por duas etapas de alinhamento multimodal e ajuste fino multitarefa em áudio, imagem, vídeo e texto. Esta abordagem capacita o modelo de linguagem a lidar eficazmente com dados visuais e de áudio. Demonstrando alto desempenho em diversos benchmarks omni-modais e multimodais, almejamos que esta contribuição sirva como uma linha de base competitiva para a comunidade de código aberto no avanço da compreensão multimodal e interação em tempo real.