ChatPaper.aiChatPaper

EMOVA: Het versterken van taalmodellen om levendige emoties te zien, horen en spreken.

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

September 26, 2024
Auteurs: Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
cs.AI

Samenvatting

GPT-4o, een omni-modulair model dat vocale gesprekken met diverse emoties en tonen mogelijk maakt, markeert een mijlpaal voor omni-modulaire basismodellen. Het blijft echter uitdagend om Grote Taalmodellen in staat te stellen afbeeldingen, teksten en spraak volledig end-to-end te begrijpen en te genereren met publiekelijk beschikbare gegevens in de open-source gemeenschap. Bestaande visie-taalmodellen vertrouwen op externe tools voor de spraakverwerking, terwijl spraak-taalmodellen nog steeds lijden onder beperkte of zelfs afwezige visiebegripsvaardigheden. Om dit hiaat aan te pakken, stellen we EMOVA (EMotioneel Omni-aanwezige Stemassistent) voor, om Grote Taalmodellen in staat te stellen end-to-end spraakmogelijkheden te hebben terwijl de toonaangevende visie-taalprestaties behouden blijven. Met een semantische-akoestische ontkoppelde spraaktokenizer merken we verrassend op dat omni-modulaire afstemming de visie-taal- en spraakvaardigheden verder kan verbeteren in vergelijking met de overeenkomstige bi-modale afgestemde tegenhangers. Bovendien wordt een lichtgewicht stijlmodule voorgesteld voor flexibele spraakstijlcontroles (bijv. emoties en toonhoogtes). Voor het eerst behaalt EMOVA state-of-the-art prestaties op zowel de visie-taal- als spraakbenchmarks, en ondersteunt tegelijkertijd omni-modulaire gesproken dialogen met levendige emoties.
English
GPT-4o, an omni-modal model that enables vocal conversations with diverse emotions and tones, marks a milestone for omni-modal foundation models. However, empowering Large Language Models to perceive and generate images, texts, and speeches end-to-end with publicly available data remains challenging in the open-source community. Existing vision-language models rely on external tools for the speech processing, while speech-language models still suffer from limited or even without vision-understanding abilities. To address this gap, we propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large Language Models with end-to-end speech capabilities while maintaining the leading vision-language performance. With a semantic-acoustic disentangled speech tokenizer, we notice surprisingly that omni-modal alignment can further enhance vision-language and speech abilities compared with the corresponding bi-modal aligned counterparts. Moreover, a lightweight style module is proposed for flexible speech style controls (e.g., emotions and pitches). For the first time, EMOVA achieves state-of-the-art performance on both the vision-language and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue with vivid emotions.

Summary

AI-Generated Summary

PDF4113November 16, 2024