OpenOmni: Modelos de Lenguaje Grandes Pivotan Alineación Omnimodal Sin Etiquetas a través de Idiomas con Síntesis de Habla Emocional en Tiempo Real Autoconsciente
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis
January 8, 2025
Autores: Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang
cs.AI
Resumen
Se han logrado avances recientes en el aprendizaje omnimodal en la comprensión y generación a través de imágenes, texto y habla, aunque principalmente dentro de modelos propietarios. Conjuntos de datos omnimodales limitados y los desafíos inherentes asociados con la generación de habla emocional en tiempo real han obstaculizado el progreso de código abierto. Para abordar estos problemas, proponemos openomni, un método de entrenamiento de dos etapas que combina el alineamiento omnimodal y la generación de habla para desarrollar un modelo de lenguaje grande omnimodal de última generación. En la fase de alineamiento, un modelo de habla pre-entrenado se entrena aún más en tareas de texto-imagen para generalizar de la visión al habla de manera (casi) sin necesidad de ajustes, superando a los modelos entrenados en conjuntos de datos tri-modales. En la fase de generación de habla, un decodificador ligero facilita la generación de habla emocional en tiempo real a través del entrenamiento en tareas de habla y aprendizaje de preferencias. Los experimentos demuestran que openomni mejora consistentemente en evaluaciones omnimodales, visión-lenguaje y habla-lenguaje, permitiendo diálogos naturales y ricos en emociones y generación de habla emocional en tiempo real.
English
Recent advancements in omnimodal learning have been achieved in understanding
and generation across images, text, and speech, though mainly within
proprietary models. Limited omnimodal datasets and the inherent challenges
associated with real-time emotional speech generation have hindered open-source
progress. To address these issues, we propose openomni, a two-stage training
method combining omnimodal alignment and speech generation to develop a
state-of-the-art omnimodal large language model. In the alignment phase, a
pre-trained speech model is further trained on text-image tasks to generalize
from vision to speech in a (near) zero-shot manner, outperforming models
trained on tri-modal datasets. In the speech generation phase, a lightweight
decoder facilitates real-time emotional speech through training on speech tasks
and preference learning. Experiments demonstrate that openomni consistently
improves across omnimodal, vision-language, and speech-language evaluations,
enabling natural, emotion-rich dialogues and real-time emotional speech
generation.Summary
AI-Generated Summary