EMOVA: 感情豊かに見たり聞いたり話したりするための言語モデルの強化
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions
September 26, 2024
著者: Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu
cs.AI
要旨
GPT-4oは、さまざまな感情やトーンを持つ音声会話を可能にするオムニモーダルモデルであり、オムニモーダル基盤モデルにおける画期的な進展を示しています。しかし、大規模言語モデルに画像、テキスト、音声を認識および生成させるために公開されているデータだけを用いることは、オープンソースコミュニティにおいて依然として困難です。既存のビジョン言語モデルは音声処理のために外部ツールに依存しており、一方、音声言語モデルは依然として視覚理解能力が限定されているか、まったく持っていない状況です。このギャップを埋めるために、私たちはEMOVA(感情的に普遍的な音声アシスタント)を提案します。これにより、大規模言語モデルにエンドツーエンドの音声機能を可能にし、先進的なビジョン言語パフォーマンスを維持します。意味論的音響的に分離された音声トークナイザーを使用することで、オムニモーダルな整合性が、対応するバイモーダルな整合性を持つモデルと比較して、ビジョン言語および音声能力をさらに向上させることができることに驚くべきことに気付きました。さらに、柔軟な音声スタイル制御(感情やピッチなど)のために軽量なスタイルモジュールが提案されています。EMOVAは、ビジョン言語および音声のベンチマークにおいて最先端のパフォーマンスを達成し、同時に生き生きとした感情を持つオムニモーダルな音声対話をサポートしています。
English
GPT-4o, an omni-modal model that enables vocal conversations with diverse
emotions and tones, marks a milestone for omni-modal foundation models.
However, empowering Large Language Models to perceive and generate images,
texts, and speeches end-to-end with publicly available data remains challenging
in the open-source community. Existing vision-language models rely on external
tools for the speech processing, while speech-language models still suffer from
limited or even without vision-understanding abilities. To address this gap, we
propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large
Language Models with end-to-end speech capabilities while maintaining the
leading vision-language performance. With a semantic-acoustic disentangled
speech tokenizer, we notice surprisingly that omni-modal alignment can further
enhance vision-language and speech abilities compared with the corresponding
bi-modal aligned counterparts. Moreover, a lightweight style module is proposed
for flexible speech style controls (e.g., emotions and pitches). For the first
time, EMOVA achieves state-of-the-art performance on both the vision-language
and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue
with vivid emotions.Summary
AI-Generated Summary