ChatPaper.aiChatPaper

EMOVA: Potenziare i Modelli Linguistici per Vedere, Sentire e Parlare con Emozioni Vivide

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

September 26, 2024
Autori: Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
cs.AI

Abstract

GPT-4o, un modello omni-modale che consente conversazioni vocali con diverse emozioni e toni, segna un traguardo per i modelli fondamentali omni-modali. Tuttavia, abilitare i Grandi Modelli Linguistici a percepire e generare immagini, testi e discorsi end-to-end con dati pubblicamente disponibili rimane una sfida nella comunità open-source. I modelli esistenti di visione-linguaggio si basano su strumenti esterni per l'elaborazione del discorso, mentre i modelli di linguaggio-discorso soffrono ancora di capacità limitate o addirittura senza capacità di comprensione della visione. Per affrontare questa lacuna, proponiamo EMOVA (Assistente Vocale Emotivamente Onnipresente), per abilitare i Grandi Modelli Linguistici con capacità di discorso end-to-end mantenendo le prestazioni di visione-linguaggio leader. Con un tokenizzatore di discorso semanticamente-acustico disaccoppiato, notiamo sorprendentemente che l'allineamento omni-modale può ulteriormente migliorare le capacità di visione-linguaggio e di discorso rispetto ai corrispondenti controparti allineate bi-modali. Inoltre, viene proposto un modulo di stile leggero per controlli flessibili dello stile del discorso (ad esempio, emozioni e toni). Per la prima volta, EMOVA raggiunge prestazioni all'avanguardia sia nei benchmark di visione-linguaggio che di discorso, e nel contempo supporta un dialogo parlato omni-modale con emozioni vivide.
English
GPT-4o, an omni-modal model that enables vocal conversations with diverse emotions and tones, marks a milestone for omni-modal foundation models. However, empowering Large Language Models to perceive and generate images, texts, and speeches end-to-end with publicly available data remains challenging in the open-source community. Existing vision-language models rely on external tools for the speech processing, while speech-language models still suffer from limited or even without vision-understanding abilities. To address this gap, we propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large Language Models with end-to-end speech capabilities while maintaining the leading vision-language performance. With a semantic-acoustic disentangled speech tokenizer, we notice surprisingly that omni-modal alignment can further enhance vision-language and speech abilities compared with the corresponding bi-modal aligned counterparts. Moreover, a lightweight style module is proposed for flexible speech style controls (e.g., emotions and pitches). For the first time, EMOVA achieves state-of-the-art performance on both the vision-language and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue with vivid emotions.

Summary

AI-Generated Summary

PDF4113November 16, 2024