Mini-Omni2: Hacia un GPT-4o de código abierto con capacidades de visión, habla y dúplex.
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
October 15, 2024
Autores: Zhifei Xie, Changqiao Wu
cs.AI
Resumen
GPT-4o, un modelo integral, representa un hito en el desarrollo de grandes modelos de lenguaje multimodales. Puede comprender modalidades visuales, auditivas y textuales, generar directamente audio y admitir interacción dúplex flexible. Los modelos de la comunidad de código abierto a menudo logran algunas funcionalidades de GPT-4o, como comprensión visual y chat de voz. Sin embargo, entrenar un modelo unificado que incorpore todas las modalidades es un desafío debido a las complejidades de los datos multimodales, las intrincadas arquitecturas de modelos y los procesos de entrenamiento. En este documento, presentamos Mini-Omni2, un asistente visual-auditivo capaz de proporcionar respuestas de voz en tiempo real de extremo a extremo a consultas visuales y auditivas. Al integrar codificadores visuales y auditivos preentrenados, Mini-Omni2 mantiene el rendimiento en modalidades individuales. Proponemos un proceso de entrenamiento de tres etapas para alinear las modalidades, lo que permite que el modelo de lenguaje maneje entradas y salidas multimodales después de entrenar con un conjunto de datos limitado. Para la interacción, presentamos un mecanismo de interrupción basado en comandos, que permite una interacción más flexible con los usuarios. Hasta donde sabemos, Mini-Omni2 es una de las reproducciones más cercanas de GPT-4o, que tienen una forma similar de funcionalidad, y esperamos que pueda ofrecer ideas valiosas para investigaciones posteriores.
English
GPT-4o, an all-encompassing model, represents a milestone in the development
of large multi-modal language models. It can understand visual, auditory, and
textual modalities, directly output audio, and support flexible duplex
interaction. Models from the open-source community often achieve some
functionalities of GPT-4o, such as visual understanding and voice chat.
Nevertheless, training a unified model that incorporates all modalities is
challenging due to the complexities of multi-modal data, intricate model
architectures, and training processes. In this paper, we introduce Mini-Omni2,
a visual-audio assistant capable of providing real-time, end-to-end voice
responses to visoin and audio queries. By integrating pretrained visual and
auditory encoders, Mini-Omni2 maintains performance in individual modalities.
We propose a three-stage training process to align modalities, allowing the
language model to handle multi-modal inputs and outputs after training on a
limited dataset. For interaction, we introduce a command-based interruption
mechanism, enabling more flexible interaction with users. To the best of our
knowledge, Mini-Omni2 is one of the closest reproductions of GPT-4o, which have
similar form of functionality, and we hope it can offer valuable insights for
subsequent research.