EMOVA : Donner aux modèles de langage le pouvoir de voir, entendre et parler avec des émotions vives
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions
September 26, 2024
Auteurs: Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
cs.AI
Résumé
GPT-4o, un modèle omni-modal permettant des conversations vocales avec diverses émotions et tons, marque une étape importante pour les modèles fondamentaux omni-modaux. Cependant, habiliter les Grands Modèles de Langage à percevoir et générer des images, des textes et des discours de bout en bout avec des données disponibles publiquement reste un défi au sein de la communauté open source. Les modèles vision-langage existants s'appuient sur des outils externes pour le traitement de la parole, tandis que les modèles de parole-langage souffrent encore de capacités limitées, voire inexistantes, de compréhension de la vision. Pour combler cette lacune, nous proposons EMOVA (Assistant Vocal Émotionnellement Omniprésent), pour permettre aux Grands Modèles de Langage d'avoir des capacités de parole de bout en bout tout en maintenant des performances de premier plan en vision-langage. Avec un tokeniseur de parole désenchevêtré sémantique-acoustique, nous remarquons de manière surprenante que l'alignement omni-modal peut améliorer davantage les capacités en vision-langage et en parole par rapport aux homologues bi-modaux alignés correspondants. De plus, un module de style léger est proposé pour des contrôles de style de parole flexibles (par exemple, émotions et tonalités). Pour la première fois, EMOVA atteint des performances de pointe à la fois sur les benchmarks en vision-langage et en parole, tout en prenant en charge un dialogue parlé omni-modal avec des émotions vives.
English
GPT-4o, an omni-modal model that enables vocal conversations with diverse
emotions and tones, marks a milestone for omni-modal foundation models.
However, empowering Large Language Models to perceive and generate images,
texts, and speeches end-to-end with publicly available data remains challenging
in the open-source community. Existing vision-language models rely on external
tools for the speech processing, while speech-language models still suffer from
limited or even without vision-understanding abilities. To address this gap, we
propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large
Language Models with end-to-end speech capabilities while maintaining the
leading vision-language performance. With a semantic-acoustic disentangled
speech tokenizer, we notice surprisingly that omni-modal alignment can further
enhance vision-language and speech abilities compared with the corresponding
bi-modal aligned counterparts. Moreover, a lightweight style module is proposed
for flexible speech style controls (e.g., emotions and pitches). For the first
time, EMOVA achieves state-of-the-art performance on both the vision-language
and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue
with vivid emotions.Summary
AI-Generated Summary