Mini-Omni2: Hacia un GPT-4o de código abierto con capacidades de visión, habla y dúplex.

Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

October 15, 2024
Autores: Zhifei Xie, Changqiao Wu
cs.AI

Resumen

GPT-4o, un modelo integral, representa un hito en el desarrollo de grandes modelos de lenguaje multimodales. Puede comprender modalidades visuales, auditivas y textuales, generar directamente audio y admitir interacción dúplex flexible. Los modelos de la comunidad de código abierto a menudo logran algunas funcionalidades de GPT-4o, como comprensión visual y chat de voz. Sin embargo, entrenar un modelo unificado que incorpore todas las modalidades es un desafío debido a las complejidades de los datos multimodales, las intrincadas arquitecturas de modelos y los procesos de entrenamiento. En este documento, presentamos Mini-Omni2, un asistente visual-auditivo capaz de proporcionar respuestas de voz en tiempo real de extremo a extremo a consultas visuales y auditivas. Al integrar codificadores visuales y auditivos preentrenados, Mini-Omni2 mantiene el rendimiento en modalidades individuales. Proponemos un proceso de entrenamiento de tres etapas para alinear las modalidades, lo que permite que el modelo de lenguaje maneje entradas y salidas multimodales después de entrenar con un conjunto de datos limitado. Para la interacción, presentamos un mecanismo de interrupción basado en comandos, que permite una interacción más flexible con los usuarios. Hasta donde sabemos, Mini-Omni2 es una de las reproducciones más cercanas de GPT-4o, que tienen una forma similar de funcionalidad, y esperamos que pueda ofrecer ideas valiosas para investigaciones posteriores.
English
GPT-4o, an all-encompassing model, represents a milestone in the development of large multi-modal language models. It can understand visual, auditory, and textual modalities, directly output audio, and support flexible duplex interaction. Models from the open-source community often achieve some functionalities of GPT-4o, such as visual understanding and voice chat. Nevertheless, training a unified model that incorporates all modalities is challenging due to the complexities of multi-modal data, intricate model architectures, and training processes. In this paper, we introduce Mini-Omni2, a visual-audio assistant capable of providing real-time, end-to-end voice responses to visoin and audio queries. By integrating pretrained visual and auditory encoders, Mini-Omni2 maintains performance in individual modalities. We propose a three-stage training process to align modalities, allowing the language model to handle multi-modal inputs and outputs after training on a limited dataset. For interaction, we introduce a command-based interruption mechanism, enabling more flexible interaction with users. To the best of our knowledge, Mini-Omni2 is one of the closest reproductions of GPT-4o, which have similar form of functionality, and we hope it can offer valuable insights for subsequent research.
PDF222November 16, 2024