ChatPaper.aiChatPaper

EMOVA: Capacitando Modelos de Linguagem para Ver, Ouvir e Falar com Emoções Vívidas

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

September 26, 2024
Autores: Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
cs.AI

Resumo

O GPT-4o, um modelo omni-modal que permite conversas vocais com diversas emoções e tons, marca um marco para modelos de fundação omni-modais. No entanto, capacitar Modelos de Linguagem Grandes para perceber e gerar imagens, textos e discursos de ponta a ponta com dados publicamente disponíveis continua sendo um desafio na comunidade de código aberto. Modelos existentes de visão-linguagem dependem de ferramentas externas para o processamento de fala, enquanto modelos de fala-linguagem ainda sofrem com habilidades limitadas ou até mesmo sem capacidade de compreensão de visão. Para abordar essa lacuna, propomos o EMOVA (Assistente de Voz Emocionalmente Onipresente), para capacitar Modelos de Linguagem Grandes com capacidades de fala de ponta a ponta, mantendo o desempenho líder em visão-linguagem. Com um tokenizador de fala desembaraçado semântico-acústico, notamos surpreendentemente que o alinhamento omni-modal pode aprimorar ainda mais as habilidades de visão-linguagem e fala em comparação com os respectivos contrapartes alinhados bimodais. Além disso, um módulo de estilo leve é proposto para controles flexíveis de estilo de fala (por exemplo, emoções e tons). Pela primeira vez, o EMOVA alcança desempenho de ponta tanto nos benchmarks de visão-linguagem quanto de fala, e ao mesmo tempo, suporta diálogos falados omni-modais com emoções vívidas.
English
GPT-4o, an omni-modal model that enables vocal conversations with diverse emotions and tones, marks a milestone for omni-modal foundation models. However, empowering Large Language Models to perceive and generate images, texts, and speeches end-to-end with publicly available data remains challenging in the open-source community. Existing vision-language models rely on external tools for the speech processing, while speech-language models still suffer from limited or even without vision-understanding abilities. To address this gap, we propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large Language Models with end-to-end speech capabilities while maintaining the leading vision-language performance. With a semantic-acoustic disentangled speech tokenizer, we notice surprisingly that omni-modal alignment can further enhance vision-language and speech abilities compared with the corresponding bi-modal aligned counterparts. Moreover, a lightweight style module is proposed for flexible speech style controls (e.g., emotions and pitches). For the first time, EMOVA achieves state-of-the-art performance on both the vision-language and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue with vivid emotions.

Summary

AI-Generated Summary

PDF4113November 16, 2024