ChatPaper.aiChatPaper

VITA: Auf dem Weg zu einem Open-Source Interaktiven Omni Multimodalen LLM

VITA: Towards Open-Source Interactive Omni Multimodal LLM

August 9, 2024
Autoren: Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun
cs.AI

Zusammenfassung

Die bemerkenswerten multimodalen Fähigkeiten und die interaktive Erfahrung von GPT-4o unterstreichen ihre Notwendigkeit in praktischen Anwendungen, doch Open-Source-Modelle glänzen selten in beiden Bereichen. In diesem Paper stellen wir VITA vor, das erste Open-Source Multimodal Large Language Model (MLLM), das gleichzeitig die Verarbeitung und Analyse von Video, Bild, Text und Audio-Modalitäten beherrscht und gleichzeitig über eine fortschrittliche multimodale interaktive Erfahrung verfügt. Ausgehend von Mixtral 8x7B als Sprachgrundlage erweitern wir seinen chinesischen Wortschatz, gefolgt von zweisprachigem Instruktions-Tuning. Wir verleihen dem Sprachmodell außerdem visuelle und audiovisuelle Fähigkeiten durch zweistufiges Multi-Task-Learning von multimodaler Ausrichtung und Instruktions-Tuning. VITA zeigt robuste grundlegende Fähigkeiten in mehrsprachigem, visuellem und audiovisuellem Verständnis, wie durch seine starke Leistung in einer Vielzahl von unimodalen und multimodalen Benchmarks belegt wird. Über die grundlegenden Fähigkeiten hinaus haben wir erhebliche Fortschritte bei der Verbesserung der natürlichen multimodalen Mensch-Computer-Interaktionserfahrung gemacht. Nach unserem Kenntnisstand sind wir die Ersten, die die nicht-erwachende Interaktion und Audio-Unterbrechung in MLLM nutzen. VITA ist der erste Schritt für die Open-Source-Community, um die nahtlose Integration von multimodalem Verständnis und Interaktion zu erforschen. Obwohl noch viel Arbeit an VITA zu tun ist, um an geschlossene Gegenstücke heranzukommen, hoffen wir, dass seine Rolle als Vorreiter als Grundstein für nachfolgende Forschung dienen kann. Projektseite: https://vita-home.github.io.
English
The remarkable multimodal capabilities and interactive experience of GPT-4o underscore their necessity in practical applications, yet open-source models rarely excel in both areas. In this paper, we introduce VITA, the first-ever open-source Multimodal Large Language Model (MLLM) adept at simultaneous processing and analysis of Video, Image, Text, and Audio modalities, and meanwhile has an advanced multimodal interactive experience. Starting from Mixtral 8x7B as a language foundation, we expand its Chinese vocabulary followed by bilingual instruction tuning. We further endow the language model with visual and audio capabilities through two-stage multi-task learning of multimodal alignment and instruction tuning. VITA demonstrates robust foundational capabilities of multilingual, vision, and audio understanding, as evidenced by its strong performance across a range of both unimodal and multimodal benchmarks. Beyond foundational capabilities, we have made considerable progress in enhancing the natural multimodal human-computer interaction experience. To the best of our knowledge, we are the first to exploit non-awakening interaction and audio interrupt in MLLM. VITA is the first step for the open-source community to explore the seamless integration of multimodal understanding and interaction. While there is still lots of work to be done on VITA to get close to close-source counterparts, we hope that its role as a pioneer can serve as a cornerstone for subsequent research. Project Page: https://vita-home.github.io.

Summary

AI-Generated Summary

PDF493November 28, 2024