Rapporto Tecnico Baichuan-OmniBaichuan-Omni Technical Report
Le salienti capacità multimodali e l'esperienza interattiva di GPT-4o evidenziano il suo ruolo critico nelle applicazioni pratiche, tuttavia manca di un controparte open-source ad alte prestazioni. In questo articolo, presentiamo Baichuan-Omni, il primo Modello di Linguaggio Multimodale Large (MLLM) open-source da 7B abile nel processare e analizzare contemporaneamente le modalità di immagini, video, audio e testo, offrendo un'esperienza interattiva multimodale avanzata e prestazioni elevate. Proponiamo uno schema di addestramento multimodale efficace che inizia con il modello da 7B e procede attraverso due fasi di allineamento multimodale e raffinamento multitask attraverso le modalità audio, immagine, video e testo. Questo approccio dota il modello linguistico della capacità di gestire efficacemente i dati visivi e audio. Dimostrando prestazioni elevate su vari benchmark omni-modal e multimodali, miriamo a far sì che questo contributo funga da base competitiva per la comunità open-source nell'avanzare la comprensione multimodale e l'interazione in tempo reale.