Baichuan-Omni Technischer BerichtBaichuan-Omni Technical Report
Die herausragenden multimodalen Fähigkeiten und die interaktive Erfahrung von GPT-4o betonen seine entscheidende Rolle in praktischen Anwendungen, jedoch fehlt es an einer leistungsstarken Open-Source-Gegenstück. In diesem Paper stellen wir Baichuan-Omni vor, das erste Open-Source 7B Multimodal Large Language Model (MLLM), das gleichzeitig Modalitäten von Bild, Video, Audio und Text verarbeiten und analysieren kann, während es eine fortschrittliche multimodale interaktive Erfahrung und starke Leistung bietet. Wir schlagen ein effektives multimodales Schulungsschema vor, das mit dem 7B-Modell beginnt und sich durch zwei Stufen der multimodalen Ausrichtung und des Multitask-Finetunings über Audio, Bild, Video und Text erstreckt. Dieser Ansatz stattet das Sprachmodell mit der Fähigkeit aus, visuelle und Audio-Daten effektiv zu verarbeiten. Durch die Demonstration starker Leistungen in verschiedenen omni-modalen und multimodalen Benchmarks streben wir an, dass dieser Beitrag als wettbewerbsfähige Basislinie für die Open-Source-Community dient, um das Verständnis für multimodale Interaktionen in Echtzeit voranzutreiben.