EMOVA: Capacitando a los Modelos de Lenguaje para Ver, Escuchar y Hablar con Emociones Vívidas
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions
September 26, 2024
Autores: Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
cs.AI
Resumen
GPT-4o, un modelo omni-modal que permite conversaciones vocales con diversas emociones y tonos, marca un hito para los modelos fundamentales omni-modales. Sin embargo, capacitar a los Modelos de Lenguaje Grandes para percibir y generar imágenes, textos y discursos de extremo a extremo con datos disponibles públicamente sigue siendo un desafío en la comunidad de código abierto. Los modelos existentes de visión-lenguaje dependen de herramientas externas para el procesamiento del habla, mientras que los modelos de habla-lenguaje aún sufren de habilidades limitadas o incluso carecen de comprensión de la visión. Para abordar esta brecha, proponemos EMOVA (Asistente de Voz Emocionalmente Omnipresente), para habilitar a los Modelos de Lenguaje Grandes con capacidades de habla de extremo a extremo manteniendo el rendimiento líder en visión-lenguaje. Con un tokenizador de habla desacoplado semántico-acústico, notamos sorprendentemente que la alineación omni-modal puede mejorar aún más las habilidades de visión-lenguaje y habla en comparación con los contrapartes alineados bi-modales correspondientes. Además, se propone un módulo de estilo ligero para controles flexibles de estilo de habla (por ejemplo, emociones y tonos). Por primera vez, EMOVA logra un rendimiento de vanguardia tanto en los benchmarks de visión-lenguaje como de habla, y al mismo tiempo, soporta diálogos hablados omni-modales con emociones vívidas.
English
GPT-4o, an omni-modal model that enables vocal conversations with diverse
emotions and tones, marks a milestone for omni-modal foundation models.
However, empowering Large Language Models to perceive and generate images,
texts, and speeches end-to-end with publicly available data remains challenging
in the open-source community. Existing vision-language models rely on external
tools for the speech processing, while speech-language models still suffer from
limited or even without vision-understanding abilities. To address this gap, we
propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large
Language Models with end-to-end speech capabilities while maintaining the
leading vision-language performance. With a semantic-acoustic disentangled
speech tokenizer, we notice surprisingly that omni-modal alignment can further
enhance vision-language and speech abilities compared with the corresponding
bi-modal aligned counterparts. Moreover, a lightweight style module is proposed
for flexible speech style controls (e.g., emotions and pitches). For the first
time, EMOVA achieves state-of-the-art performance on both the vision-language
and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue
with vivid emotions.Summary
AI-Generated Summary