OpenOmni: Большие модели языка осуществляют нулевую выравнивание между модальностями через язык с синтезом речи с реальным временем и самосознанием эмоционального контекста.
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis
January 8, 2025
Авторы: Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang
cs.AI
Аннотация
В последнее время были достигнуты значительные успехи в области омни-модального обучения в понимании и генерации изображений, текста и речи, хотя главным образом в рамках собственных моделей. Ограниченные омни-модальные наборы данных и сопутствующие сложности, связанные с генерацией речи в реальном времени, препятствовали прогрессу в области открытых исследований. Для решения этих проблем мы предлагаем openomni, метод обучения в два этапа, объединяющий выравнивание омни-модальности и генерацию речи для разработки передовой омни-модальной крупной языковой модели. На этапе выравнивания предварительно обученная модель речи дополнительно обучается на задачах текст-изображение для обобщения от зрения к речи в (почти) нулевом режиме передачи, превосходя модели, обученные на три-модальных наборах данных. На этапе генерации речи легкий декодер облегчает генерацию речи с эмоциональной окраской в реальном времени путем обучения на задачах речи и предпочтениях. Эксперименты показывают, что openomni последовательно улучшает результаты в оценках омни-модальности, зрение-язык и речь-язык, обеспечивая естественные, эмоционально насыщенные диалоги и генерацию речи с эмоциональной окраской в реальном времени.
English
Recent advancements in omnimodal learning have been achieved in understanding
and generation across images, text, and speech, though mainly within
proprietary models. Limited omnimodal datasets and the inherent challenges
associated with real-time emotional speech generation have hindered open-source
progress. To address these issues, we propose openomni, a two-stage training
method combining omnimodal alignment and speech generation to develop a
state-of-the-art omnimodal large language model. In the alignment phase, a
pre-trained speech model is further trained on text-image tasks to generalize
from vision to speech in a (near) zero-shot manner, outperforming models
trained on tri-modal datasets. In the speech generation phase, a lightweight
decoder facilitates real-time emotional speech through training on speech tasks
and preference learning. Experiments demonstrate that openomni consistently
improves across omnimodal, vision-language, and speech-language evaluations,
enabling natural, emotion-rich dialogues and real-time emotional speech
generation.Summary
AI-Generated Summary