Mini-Omni2: Verso un GPT-4o open-source con capacità di visione, speech e duplex
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
October 15, 2024
Autori: Zhifei Xie, Changqiao Wu
cs.AI
Abstract
GPT-4o, un modello onnicomprensivo, rappresenta una pietra miliare nello sviluppo di grandi modelli di linguaggio multimodali. È in grado di comprendere modalità visive, uditive e testuali, generare direttamente audio e supportare interazioni duplex flessibili. I modelli della comunità open-source spesso raggiungono alcune funzionalità di GPT-4o, come la comprensione visiva e le chat vocali. Tuttavia, addestrare un modello unificato che incorpori tutte le modalità è una sfida a causa delle complessità dei dati multimodali, delle intricate architetture dei modelli e dei processi di addestramento. In questo articolo, presentiamo Mini-Omni2, un assistente visivo-audio in grado di fornire risposte vocali in tempo reale, end-to-end, a query visive e audio. Integrando encoder visivi e uditivi preaddestrati, Mini-Omni2 mantiene le prestazioni nelle singole modalità. Proponiamo un processo di addestramento a tre fasi per allineare le modalità, consentendo al modello di linguaggio di gestire input e output multimodali dopo l'addestramento su un dataset limitato. Per l'interazione, introduciamo un meccanismo di interruzione basato su comandi, che consente un'interazione più flessibile con gli utenti. Fino ad oggi, Mini-Omni2 è una delle riproduzioni più fedeli di GPT-4o, che presentano una forma simile di funzionalità, e speriamo possa offrire preziose intuizioni per ricerche successive.
English
GPT-4o, an all-encompassing model, represents a milestone in the development
of large multi-modal language models. It can understand visual, auditory, and
textual modalities, directly output audio, and support flexible duplex
interaction. Models from the open-source community often achieve some
functionalities of GPT-4o, such as visual understanding and voice chat.
Nevertheless, training a unified model that incorporates all modalities is
challenging due to the complexities of multi-modal data, intricate model
architectures, and training processes. In this paper, we introduce Mini-Omni2,
a visual-audio assistant capable of providing real-time, end-to-end voice
responses to visoin and audio queries. By integrating pretrained visual and
auditory encoders, Mini-Omni2 maintains performance in individual modalities.
We propose a three-stage training process to align modalities, allowing the
language model to handle multi-modal inputs and outputs after training on a
limited dataset. For interaction, we introduce a command-based interruption
mechanism, enabling more flexible interaction with users. To the best of our
knowledge, Mini-Omni2 is one of the closest reproductions of GPT-4o, which have
similar form of functionality, and we hope it can offer valuable insights for
subsequent research.Summary
AI-Generated Summary