VITA: Auf dem Weg zu einem Open-Source Interaktiven Omni Multimodalen LLMVITA: Towards Open-Source Interactive Omni Multimodal LLM
Die bemerkenswerten multimodalen Fähigkeiten und die interaktive Erfahrung von GPT-4o unterstreichen ihre Notwendigkeit in praktischen Anwendungen, doch Open-Source-Modelle glänzen selten in beiden Bereichen. In diesem Paper stellen wir VITA vor, das erste Open-Source Multimodal Large Language Model (MLLM), das gleichzeitig die Verarbeitung und Analyse von Video, Bild, Text und Audio-Modalitäten beherrscht und gleichzeitig über eine fortschrittliche multimodale interaktive Erfahrung verfügt. Ausgehend von Mixtral 8x7B als Sprachgrundlage erweitern wir seinen chinesischen Wortschatz, gefolgt von zweisprachigem Instruktions-Tuning. Wir verleihen dem Sprachmodell außerdem visuelle und audiovisuelle Fähigkeiten durch zweistufiges Multi-Task-Learning von multimodaler Ausrichtung und Instruktions-Tuning. VITA zeigt robuste grundlegende Fähigkeiten in mehrsprachigem, visuellem und audiovisuellem Verständnis, wie durch seine starke Leistung in einer Vielzahl von unimodalen und multimodalen Benchmarks belegt wird. Über die grundlegenden Fähigkeiten hinaus haben wir erhebliche Fortschritte bei der Verbesserung der natürlichen multimodalen Mensch-Computer-Interaktionserfahrung gemacht. Nach unserem Kenntnisstand sind wir die Ersten, die die nicht-erwachende Interaktion und Audio-Unterbrechung in MLLM nutzen. VITA ist der erste Schritt für die Open-Source-Community, um die nahtlose Integration von multimodalem Verständnis und Interaktion zu erforschen. Obwohl noch viel Arbeit an VITA zu tun ist, um an geschlossene Gegenstücke heranzukommen, hoffen wir, dass seine Rolle als Vorreiter als Grundstein für nachfolgende Forschung dienen kann. Projektseite: https://vita-home.github.io.