EMOVA: Het versterken van taalmodellen om levendige emoties te zien, horen en spreken.

Samenvatting

GPT-4o, een omni-modulair model dat vocale gesprekken met diverse emoties en tonen mogelijk maakt, markeert een mijlpaal voor omni-modulaire basismodellen. Het blijft echter uitdagend om Grote Taalmodellen in staat te stellen afbeeldingen, teksten en spraak volledig end-to-end te begrijpen en te genereren met publiekelijk beschikbare gegevens in de open-source gemeenschap. Bestaande visie-taalmodellen vertrouwen op externe tools voor de spraakverwerking, terwijl spraak-taalmodellen nog steeds lijden onder beperkte of zelfs afwezige visiebegripsvaardigheden. Om dit hiaat aan te pakken, stellen we EMOVA (EMotioneel Omni-aanwezige Stemassistent) voor, om Grote Taalmodellen in staat te stellen end-to-end spraakmogelijkheden te hebben terwijl de toonaangevende visie-taalprestaties behouden blijven. Met een semantische-akoestische ontkoppelde spraaktokenizer merken we verrassend op dat omni-modulaire afstemming de visie-taal- en spraakvaardigheden verder kan verbeteren in vergelijking met de overeenkomstige bi-modale afgestemde tegenhangers. Bovendien wordt een lichtgewicht stijlmodule voorgesteld voor flexibele spraakstijlcontroles (bijv. emoties en toonhoogtes). Voor het eerst behaalt EMOVA state-of-the-art prestaties op zowel de visie-taal- als spraakbenchmarks, en ondersteunt tegelijkertijd omni-modulaire gesproken dialogen met levendige emoties.

English

GPT-4o, an omni-modal model that enables vocal conversations with diverse emotions and tones, marks a milestone for omni-modal foundation models. However, empowering Large Language Models to perceive and generate images, texts, and speeches end-to-end with publicly available data remains challenging in the open-source community. Existing vision-language models rely on external tools for the speech processing, while speech-language models still suffer from limited or even without vision-understanding abilities. To address this gap, we propose EMOVA (EMotionally Omni-present Voice Assistant), to enable Large Language Models with end-to-end speech capabilities while maintaining the leading vision-language performance. With a semantic-acoustic disentangled speech tokenizer, we notice surprisingly that omni-modal alignment can further enhance vision-language and speech abilities compared with the corresponding bi-modal aligned counterparts. Moreover, a lightweight style module is proposed for flexible speech style controls (e.g., emotions and pitches). For the first time, EMOVA achieves state-of-the-art performance on both the vision-language and speech benchmarks, and meanwhile, supporting omni-modal spoken dialogue with vivid emotions.

EMOVA: Het versterken van taalmodellen om levendige emoties te zien, horen en spreken.

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Samenvatting

Support