Мини-Омни: Языковые модели могут слышать, говорить и размышлять в режиме потоковой передачи.
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
August 29, 2024
Авторы: Zhifei Xie, Changqiao Wu
cs.AI
Аннотация
Недавние достижения в области языковых моделей привели к значительному прогрессу. GPT-4o, как новый веха, позволил проводить разговоры в реальном времени с людьми, демонстрируя близкую к человеческой естественную беглость. Такое взаимодействие человека с компьютером требует моделей с возможностью выполнять рассуждения непосредственно с аудио-модальностью и генерировать вывод в потоке. Однако это остается вне досягаемости текущих академических моделей, поскольку они обычно зависят от дополнительных систем синтеза речи для речевого синтеза, что приводит к нежелательной задержке. В данной статье представлен Mini-Omni, аудио-ориентированная конверсационная модель end-to-end, способная к взаимодействию в реальном времени. Для достижения этой возможности мы предлагаем метод генерации речи по текстовой инструкции, а также стратегии параллельной обработки пакетов во время вывода для дальнейшего увеличения производительности. Наш метод также помогает сохранить языковые возможности исходной модели с минимальным ухудшением, что позволяет другим работам устанавливать возможности взаимодействия в реальном времени. Мы называем этот метод обучения "Любая Модель Может Говорить". Мы также представляем набор данных VoiceAssistant-400K для донастройки моделей, оптимизированных для речевого вывода. На нашем лучшем понимании, Mini-Omni является первой полностью end-to-end, открытой моделью для взаимодействия в реальном времени с речью, предлагающей ценный потенциал для будущих исследований.
English
Recent advances in language models have achieved significant progress.
GPT-4o, as a new milestone, has enabled real-time conversations with humans,
demonstrating near-human natural fluency. Such human-computer interaction
necessitates models with the capability to perform reasoning directly with the
audio modality and generate output in streaming. However, this remains beyond
the reach of current academic models, as they typically depend on extra TTS
systems for speech synthesis, resulting in undesirable latency. This paper
introduces the Mini-Omni, an audio-based end-to-end conversational model,
capable of real-time speech interaction. To achieve this capability, we propose
a text-instructed speech generation method, along with batch-parallel
strategies during inference to further boost the performance. Our method also
helps to retain the original model's language capabilities with minimal
degradation, enabling other works to establish real-time interaction
capabilities. We call this training method "Any Model Can Talk". We also
introduce the VoiceAssistant-400K dataset to fine-tune models optimized for
speech output. To our best knowledge, Mini-Omni is the first fully end-to-end,
open-source model for real-time speech interaction, offering valuable potential
for future research.Summary
AI-Generated Summary