EMOVA: Capacitando a los Modelos de Lenguaje para Ver, Escuchar y Hablar con Emociones Vívidas

Resumen

GPT-4o, un modelo omni-modal que permite conversaciones vocales con diversas emociones y tonos, marca un hito para los modelos fundamentales omni-modales. Sin embargo, capacitar a los Modelos de Lenguaje Grandes para percibir y generar imágenes, textos y discursos de extremo a extremo con datos disponibles públicamente sigue siendo un desafío en la comunidad de código abierto. Los modelos existentes de visión-lenguaje dependen de herramientas externas para el procesamiento del habla, mientras que los modelos de habla-lenguaje aún sufren de habilidades limitadas o incluso carecen de comprensión de la visión. Para abordar esta brecha, proponemos EMOVA (Asistente de Voz Emocionalmente Omnipresente), para habilitar a los Modelos de Lenguaje Grandes con capacidades de habla de extremo a extremo manteniendo el rendimiento líder en visión-lenguaje. Con un tokenizador de habla desacoplado semántico-acústico, notamos sorprendentemente que la alineación omni-modal puede mejorar aún más las habilidades de visión-lenguaje y habla en comparación con los contrapartes alineados bi-modales correspondientes. Además, se propone un módulo de estilo ligero para controles flexibles de estilo de habla (por ejemplo, emociones y tonos). Por primera vez, EMOVA logra un rendimiento de vanguardia tanto en los benchmarks de visión-lenguaje como de habla, y al mismo tiempo, soporta diálogos hablados omni-modales con emociones vívidas.

English

GPT-4o, an omni-modal model that enables vocal conversations with diverse emotions and tones, marks a milestone for omni-modal foundation models. However, empowering Large Language Models to perceive and generate images, texts, and speeches end-to-end with publicly available data remains challenging in the open-source community. Existing vision-language models rely on external tools for the speech processing, while speech-language models still suffer from limited or even without vision-understanding abilities. To address this gap, we propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large Language Models with end-to-end speech capabilities while maintaining the leading vision-language performance. With a semantic-acoustic disentangled speech tokenizer, we notice surprisingly that omni-modal alignment can further enhance vision-language and speech abilities compared with the corresponding bi-modal aligned counterparts. Moreover, a lightweight style module is proposed for flexible speech style controls (e.g., emotions and pitches). For the first time, EMOVA achieves state-of-the-art performance on both the vision-language and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue with vivid emotions.

EMOVA: Capacitando a los Modelos de Lenguaje para Ver, Escuchar y Hablar con Emociones Vívidas

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Resumen

Support