Mini-Omni2: Rumo ao GPT-4o de código aberto com capacidades de visão, fala e duplex
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
October 15, 2024
Autores: Zhifei Xie, Changqiao Wu
cs.AI
Resumo
O GPT-4o, um modelo abrangente, representa um marco no desenvolvimento de grandes modelos de linguagem multi-modais. Ele pode compreender modalidades visuais, auditivas e textuais, produzir áudio diretamente e suportar interação duplex flexível. Modelos da comunidade de código aberto frequentemente alcançam algumas funcionalidades do GPT-4o, como compreensão visual e chat de voz. No entanto, treinar um modelo unificado que incorpore todas as modalidades é desafiador devido às complexidades dos dados multi-modais, arquiteturas de modelo intricadas e processos de treinamento. Neste artigo, apresentamos o Mini-Omni2, um assistente visual-auditivo capaz de fornecer respostas de voz em tempo real de ponta a ponta para consultas visuais e auditivas. Ao integrar codificadores visuais e auditivos pré-treinados, o Mini-Omni2 mantém o desempenho em modalidades individuais. Propomos um processo de treinamento em três etapas para alinhar as modalidades, permitindo que o modelo de linguagem lide com entradas e saídas multi-modais após o treinamento em um conjunto de dados limitado. Para interação, introduzimos um mecanismo de interrupção baseado em comandos, possibilitando uma interação mais flexível com os usuários. Até onde sabemos, o Mini-Omni2 é uma das reproduções mais próximas do GPT-4o, que possuem formas semelhantes de funcionalidade, e esperamos que possa oferecer insights valiosos para pesquisas subsequentes.
English
GPT-4o, an all-encompassing model, represents a milestone in the development
of large multi-modal language models. It can understand visual, auditory, and
textual modalities, directly output audio, and support flexible duplex
interaction. Models from the open-source community often achieve some
functionalities of GPT-4o, such as visual understanding and voice chat.
Nevertheless, training a unified model that incorporates all modalities is
challenging due to the complexities of multi-modal data, intricate model
architectures, and training processes. In this paper, we introduce Mini-Omni2,
a visual-audio assistant capable of providing real-time, end-to-end voice
responses to visoin and audio queries. By integrating pretrained visual and
auditory encoders, Mini-Omni2 maintains performance in individual modalities.
We propose a three-stage training process to align modalities, allowing the
language model to handle multi-modal inputs and outputs after training on a
limited dataset. For interaction, we introduce a command-based interruption
mechanism, enabling more flexible interaction with users. To the best of our
knowledge, Mini-Omni2 is one of the closest reproductions of GPT-4o, which have
similar form of functionality, and we hope it can offer valuable insights for
subsequent research.Summary
AI-Generated Summary