ChatPaper.aiChatPaper

EMOVA: Ermächtigung von Sprachmodellen, um mit lebendigen Emotionen zu Sehen, Hören und Sprechen.

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

September 26, 2024
Autoren: Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
cs.AI

Zusammenfassung

GPT-4o, ein omni-modales Modell, das Gespräche mit vielfältigen Emotionen und Tonlagen ermöglicht, markiert einen Meilenstein für omni-modale Grundlagenmodelle. Allerdings bleibt es eine Herausforderung in der Open-Source-Community, große Sprachmodelle dazu zu befähigen, Bilder, Texte und Sprache end-to-end mit öffentlich verfügbaren Daten wahrzunehmen und zu generieren. Bestehende Vision-Sprach-Modelle sind auf externe Tools zur Sprachverarbeitung angewiesen, während Sprach-Sprach-Modelle immer noch unter begrenzten oder sogar fehlenden Fähigkeiten zur Bildverarbeitung leiden. Um diese Lücke zu schließen, schlagen wir EMOVA (EMotionally Omni-present Voice Assistant) vor, um großen Sprachmodellen end-to-end Sprachfähigkeiten zu verleihen, während gleichzeitig die führende Leistung in der Vision-Sprachverarbeitung beibehalten wird. Mit einem semantisch-akustisch entkoppelten Sprach-Tokenizer stellen wir überraschenderweise fest, dass eine omni-modale Ausrichtung die Fähigkeiten in der Vision-Sprachverarbeitung und Sprachverarbeitung im Vergleich zu den entsprechenden bi-modalen Ausrichtungen weiter verbessern kann. Darüber hinaus wird ein leichtgewichtiges Stilmodul für flexible Steuerungsmöglichkeiten des Sprachstils (z.B. Emotionen und Tonlagen) vorgeschlagen. EMOVA erzielt erstmalig Spitzenleistungen sowohl in den Vision-Sprach- als auch Sprach-Benchmarks und unterstützt gleichzeitig omni-modale gesprochene Dialoge mit lebendigen Emotionen.
English
GPT-4o, an omni-modal model that enables vocal conversations with diverse emotions and tones, marks a milestone for omni-modal foundation models. However, empowering Large Language Models to perceive and generate images, texts, and speeches end-to-end with publicly available data remains challenging in the open-source community. Existing vision-language models rely on external tools for the speech processing, while speech-language models still suffer from limited or even without vision-understanding abilities. To address this gap, we propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large Language Models with end-to-end speech capabilities while maintaining the leading vision-language performance. With a semantic-acoustic disentangled speech tokenizer, we notice surprisingly that omni-modal alignment can further enhance vision-language and speech abilities compared with the corresponding bi-modal aligned counterparts. Moreover, a lightweight style module is proposed for flexible speech style controls (e.g., emotions and pitches). For the first time, EMOVA achieves state-of-the-art performance on both the vision-language and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue with vivid emotions.

Summary

AI-Generated Summary

PDF4113November 16, 2024