EMOVA: Дарящие силу языковые модели видеть, слышать и говорить с яркими эмоциями
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions
September 26, 2024
Авторы: Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
cs.AI
Аннотация
GPT-4o, омни-модель, позволяющая вести голосовые разговоры с разнообразными эмоциями и тонами, ставит важный этап в развитии омни-модельных основных моделей. Однако обеспечение возможности крупным языковым моделям воспринимать и создавать изображения, тексты и речи полностью на основе общедоступных данных остается сложной задачей в сообществе с открытым исходным кодом. Существующие модели видео-языка зависят от внешних инструментов для обработки речи, в то время как модели речи-языка по-прежнему страдают от ограниченных или даже отсутствующих способностей понимания видео. Для устранения этого разрыва мы предлагаем EMOVA (EMotionally Omni-present Voice Assistant), чтобы предоставить крупным языковым моделям возможности работы с речью end-to-end, сохраняя при этом ведущую производительность моделей видео-языка. С помощью семантического-акустического декодера речи мы обнаружили, что омни-модальное выравнивание может дополнительно улучшить способности видео-языка и речи по сравнению с соответствующими двухмодальными моделями. Более того, был предложен легкий стилевой модуль для гибкого управления стилем речи (например, эмоциями и высотой тона). Впервые EMOVA достигает передовой производительности как на бенчмарках видео-языка и речи, так и поддерживает омни-модальный разговор с яркими эмоциями.
English
GPT-4o, an omni-modal model that enables vocal conversations with diverse
emotions and tones, marks a milestone for omni-modal foundation models.
However, empowering Large Language Models to perceive and generate images,
texts, and speeches end-to-end with publicly available data remains challenging
in the open-source community. Existing vision-language models rely on external
tools for the speech processing, while speech-language models still suffer from
limited or even without vision-understanding abilities. To address this gap, we
propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large
Language Models with end-to-end speech capabilities while maintaining the
leading vision-language performance. With a semantic-acoustic disentangled
speech tokenizer, we notice surprisingly that omni-modal alignment can further
enhance vision-language and speech abilities compared with the corresponding
bi-modal aligned counterparts. Moreover, a lightweight style module is proposed
for flexible speech style controls (e.g., emotions and pitches). For the first
time, EMOVA achieves state-of-the-art performance on both the vision-language
and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue
with vivid emotions.Summary
AI-Generated Summary