Mini-Omni2: На пути к открытому исходному коду GPT-4o с возможностями зрения, речи и дуплекса
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
October 15, 2024
Авторы: Zhifei Xie, Changqiao Wu
cs.AI
Аннотация
GPT-4o, всеобъемлющая модель, представляет собой веху в развитии крупных мультимодальных языковых моделей. Она способна понимать визуальные, звуковые и текстовые модальности, напрямую генерировать аудио и поддерживать гибкое дуплексное взаимодействие. Модели из сообщества с открытым исходным кодом часто достигают некоторых функциональностей GPT-4o, таких как визуальное понимание и голосовой чат. Тем не менее, обучение объединенной модели, которая включает все модальности, представляет собой сложную задачу из-за сложностей мультимодальных данных, сложных архитектур моделей и процессов обучения. В данной статье мы представляем Mini-Omni2, визуально-звукового помощника, способного предоставлять голосовые ответы в реальном времени на визуальные и звуковые запросы. Интегрируя предварительно обученные визуальные и звуковые кодировщики, Mini-Omni2 сохраняет производительность в отдельных модальностях. Мы предлагаем трехэтапный процесс обучения для выравнивания модальностей, позволяющий языковой модели обрабатывать мультимодальные входы и выходы после обучения на ограниченном наборе данных. Для взаимодействия мы представляем механизм прерывания на основе команд, обеспечивающий более гибкое взаимодействие с пользователями. На наш взгляд, Mini-Omni2 является одним из наиболее близких воспроизведений GPT-4o, обладающими схожими функциональными возможностями, и мы надеемся, что он может предложить ценные идеи для последующих исследований.
English
GPT-4o, an all-encompassing model, represents a milestone in the development
of large multi-modal language models. It can understand visual, auditory, and
textual modalities, directly output audio, and support flexible duplex
interaction. Models from the open-source community often achieve some
functionalities of GPT-4o, such as visual understanding and voice chat.
Nevertheless, training a unified model that incorporates all modalities is
challenging due to the complexities of multi-modal data, intricate model
architectures, and training processes. In this paper, we introduce Mini-Omni2,
a visual-audio assistant capable of providing real-time, end-to-end voice
responses to visoin and audio queries. By integrating pretrained visual and
auditory encoders, Mini-Omni2 maintains performance in individual modalities.
We propose a three-stage training process to align modalities, allowing the
language model to handle multi-modal inputs and outputs after training on a
limited dataset. For interaction, we introduce a command-based interruption
mechanism, enabling more flexible interaction with users. To the best of our
knowledge, Mini-Omni2 is one of the closest reproductions of GPT-4o, which have
similar form of functionality, and we hope it can offer valuable insights for
subsequent research.Summary
AI-Generated Summary