ChatPaper.aiChatPaper

OpenOmni: Große Sprachmodelle schwenken Null-Schuss Omnimodale Ausrichtung über Sprachen hinweg mit Echtzeit-Selbstbewusster Emotionaler Sprachsynthese.

OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

January 8, 2025
Autoren: Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang
cs.AI

Zusammenfassung

In jüngster Zeit wurden Fortschritte im Bereich des omnimodalen Lernens erzielt, um Verständnis und Generierung über Bilder, Text und Sprache zu erreichen, hauptsächlich jedoch innerhalb proprietärer Modelle. Begrenzte omnimodale Datensätze und die inhärenten Herausforderungen, die mit der Echtzeitgenerierung emotionaler Sprache verbunden sind, haben den Fortschritt im Open-Source-Bereich behindert. Um diese Probleme anzugehen, schlagen wir openomni vor, eine zweistufige Schulungsmethode, die omnimodale Ausrichtung und Sprachgenerierung kombiniert, um ein Spitzenmodell für omnimodale große Sprachmodelle zu entwickeln. In der Ausrichtungsphase wird ein vorab trainiertes Sprachmodell weiterhin auf Text-Bild-Aufgaben trainiert, um von der Vision auf die Sprache in (nahezu) null Schritten zu verallgemeinern und dabei Modelle zu übertreffen, die auf tri-modalen Datensätzen trainiert sind. In der Sprachgenerierungsphase ermöglicht ein leichtgewichtiger Decoder die Echtzeitgenerierung emotionaler Sprache durch Schulung auf Sprachaufgaben und Präferenzlernen. Experimente zeigen, dass openomni kontinuierlich in omnimodalen, Vision-Sprache- und Sprache-Sprache-Bewertungen verbessert, natürliche, emotionsreiche Dialoge und die Echtzeitgenerierung emotionaler Sprache ermöglicht.
English
Recent advancements in omnimodal learning have been achieved in understanding and generation across images, text, and speech, though mainly within proprietary models. Limited omnimodal datasets and the inherent challenges associated with real-time emotional speech generation have hindered open-source progress. To address these issues, we propose openomni, a two-stage training method combining omnimodal alignment and speech generation to develop a state-of-the-art omnimodal large language model. In the alignment phase, a pre-trained speech model is further trained on text-image tasks to generalize from vision to speech in a (near) zero-shot manner, outperforming models trained on tri-modal datasets. In the speech generation phase, a lightweight decoder facilitates real-time emotional speech through training on speech tasks and preference learning. Experiments demonstrate that openomni consistently improves across omnimodal, vision-language, and speech-language evaluations, enabling natural, emotion-rich dialogues and real-time emotional speech generation.

Summary

AI-Generated Summary

PDF164January 9, 2025