ChatPaper.aiChatPaper

OpenOmni : Les grands modèles de langage pivotent l'alignement omnimodal sans étape intermédiaire à travers les langues avec une synthèse de discours émotionnel en temps réel auto-consciente.

OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

January 8, 2025
Auteurs: Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang
cs.AI

Résumé

Des avancées récentes dans l'apprentissage omnimodal ont été réalisées dans la compréhension et la génération à travers les images, le texte et la parole, bien que principalement au sein de modèles propriétaires. Les ensembles de données omnimodaux limités et les défis inhérents associés à la génération de parole émotionnelle en temps réel ont entravé le progrès en open source. Pour résoudre ces problèmes, nous proposons openomni, une méthode d'entraînement en deux étapes combinant l'alignement omnimodal et la génération de parole pour développer un modèle de langue omnimodal large de pointe. Dans la phase d'alignement, un modèle de parole pré-entraîné est ensuite formé sur des tâches texte-image pour généraliser de la vision à la parole de manière (presque) sans apprentissage, surpassant les modèles formés sur des ensembles de données tri-modaux. Dans la phase de génération de parole, un décodeur léger facilite la génération de parole émotionnelle en temps réel grâce à l'entraînement sur des tâches de parole et l'apprentissage des préférences. Les expériences montrent que openomni s'améliore de manière constante dans les évaluations omnimodales, vision-langage et parole-langage, permettant des dialogues naturels et riches en émotion ainsi que la génération de parole émotionnelle en temps réel.
English
Recent advancements in omnimodal learning have been achieved in understanding and generation across images, text, and speech, though mainly within proprietary models. Limited omnimodal datasets and the inherent challenges associated with real-time emotional speech generation have hindered open-source progress. To address these issues, we propose openomni, a two-stage training method combining omnimodal alignment and speech generation to develop a state-of-the-art omnimodal large language model. In the alignment phase, a pre-trained speech model is further trained on text-image tasks to generalize from vision to speech in a (near) zero-shot manner, outperforming models trained on tri-modal datasets. In the speech generation phase, a lightweight decoder facilitates real-time emotional speech through training on speech tasks and preference learning. Experiments demonstrate that openomni consistently improves across omnimodal, vision-language, and speech-language evaluations, enabling natural, emotion-rich dialogues and real-time emotional speech generation.

Summary

AI-Generated Summary

PDF164January 9, 2025