ChatPaper.aiChatPaper

EMOVA: Capacitando a los Modelos de Lenguaje para Ver, Escuchar y Hablar con Emociones Vívidas

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

September 26, 2024
Autores: Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
cs.AI

Resumen

GPT-4o, un modelo omni-modal que permite conversaciones vocales con diversas emociones y tonos, marca un hito para los modelos fundamentales omni-modales. Sin embargo, capacitar a los Modelos de Lenguaje Grandes para percibir y generar imágenes, textos y discursos de extremo a extremo con datos disponibles públicamente sigue siendo un desafío en la comunidad de código abierto. Los modelos existentes de visión-lenguaje dependen de herramientas externas para el procesamiento del habla, mientras que los modelos de habla-lenguaje aún sufren de habilidades limitadas o incluso carecen de comprensión de la visión. Para abordar esta brecha, proponemos EMOVA (Asistente de Voz Emocionalmente Omnipresente), para habilitar a los Modelos de Lenguaje Grandes con capacidades de habla de extremo a extremo manteniendo el rendimiento líder en visión-lenguaje. Con un tokenizador de habla desacoplado semántico-acústico, notamos sorprendentemente que la alineación omni-modal puede mejorar aún más las habilidades de visión-lenguaje y habla en comparación con los contrapartes alineados bi-modales correspondientes. Además, se propone un módulo de estilo ligero para controles flexibles de estilo de habla (por ejemplo, emociones y tonos). Por primera vez, EMOVA logra un rendimiento de vanguardia tanto en los benchmarks de visión-lenguaje como de habla, y al mismo tiempo, soporta diálogos hablados omni-modales con emociones vívidas.
English
GPT-4o, an omni-modal model that enables vocal conversations with diverse emotions and tones, marks a milestone for omni-modal foundation models. However, empowering Large Language Models to perceive and generate images, texts, and speeches end-to-end with publicly available data remains challenging in the open-source community. Existing vision-language models rely on external tools for the speech processing, while speech-language models still suffer from limited or even without vision-understanding abilities. To address this gap, we propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large Language Models with end-to-end speech capabilities while maintaining the leading vision-language performance. With a semantic-acoustic disentangled speech tokenizer, we notice surprisingly that omni-modal alignment can further enhance vision-language and speech abilities compared with the corresponding bi-modal aligned counterparts. Moreover, a lightweight style module is proposed for flexible speech style controls (e.g., emotions and pitches). For the first time, EMOVA achieves state-of-the-art performance on both the vision-language and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue with vivid emotions.

Summary

AI-Generated Summary

PDF4113November 16, 2024