OpenOmni: Grote taalmodellen draaien om nul-schot omni-modale uitlijning over talen met real-time zelfbewuste emotionele spraaksynthese.
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis
January 8, 2025
Auteurs: Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang
cs.AI
Samenvatting
Recente ontwikkelingen in omnimodaal leren hebben vooruitgang geboekt in het begrijpen en genereren van beelden, tekst en spraak, zij het voornamelijk binnen eigen modellen. Beperkte omnimodale datasets en de inherente uitdagingen die gepaard gaan met het genereren van emotionele spraak in realtime hebben de voortgang van open-source projecten belemmerd. Om deze problemen aan te pakken, stellen we openomni voor, een tweefasige trainingsmethode die omnimodale afstemming en spraakgeneratie combineert om een state-of-the-art omnimodaal groot taalmodel te ontwikkelen. In de afstemmingsfase wordt een voorgeleerd spraakmodel verder getraind op tekst-beeldtaken om te generaliseren van visie naar spraak op een (bijna) zero-shot manier, waarbij modellen die zijn getraind op tri-modale datasets worden overtroffen. In de spraakgeneratiefase vergemakkelijkt een lichte decoder emotionele spraak in realtime door training op spraaktaken en voorkeursleren. Experimenten tonen aan dat openomni consequent verbeteringen laat zien bij omnimodale, visie-taal en spraak-taal evaluaties, waardoor natuurlijke, emotierijke dialogen en het genereren van emotionele spraak in realtime mogelijk worden gemaakt.
English
Recent advancements in omnimodal learning have been achieved in understanding
and generation across images, text, and speech, though mainly within
proprietary models. Limited omnimodal datasets and the inherent challenges
associated with real-time emotional speech generation have hindered open-source
progress. To address these issues, we propose openomni, a two-stage training
method combining omnimodal alignment and speech generation to develop a
state-of-the-art omnimodal large language model. In the alignment phase, a
pre-trained speech model is further trained on text-image tasks to generalize
from vision to speech in a (near) zero-shot manner, outperforming models
trained on tri-modal datasets. In the speech generation phase, a lightweight
decoder facilitates real-time emotional speech through training on speech tasks
and preference learning. Experiments demonstrate that openomni consistently
improves across omnimodal, vision-language, and speech-language evaluations,
enabling natural, emotion-rich dialogues and real-time emotional speech
generation.Summary
AI-Generated Summary