ChatPaper.aiChatPaper

Мини-Омни: Языковые модели могут слышать, говорить и размышлять в режиме потоковой передачи.

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

August 29, 2024
Авторы: Zhifei Xie, Changqiao Wu
cs.AI

Аннотация

Недавние достижения в области языковых моделей привели к значительному прогрессу. GPT-4o, как новый веха, позволил проводить разговоры в реальном времени с людьми, демонстрируя близкую к человеческой естественную беглость. Такое взаимодействие человека с компьютером требует моделей с возможностью выполнять рассуждения непосредственно с аудио-модальностью и генерировать вывод в потоке. Однако это остается вне досягаемости текущих академических моделей, поскольку они обычно зависят от дополнительных систем синтеза речи для речевого синтеза, что приводит к нежелательной задержке. В данной статье представлен Mini-Omni, аудио-ориентированная конверсационная модель end-to-end, способная к взаимодействию в реальном времени. Для достижения этой возможности мы предлагаем метод генерации речи по текстовой инструкции, а также стратегии параллельной обработки пакетов во время вывода для дальнейшего увеличения производительности. Наш метод также помогает сохранить языковые возможности исходной модели с минимальным ухудшением, что позволяет другим работам устанавливать возможности взаимодействия в реальном времени. Мы называем этот метод обучения "Любая Модель Может Говорить". Мы также представляем набор данных VoiceAssistant-400K для донастройки моделей, оптимизированных для речевого вывода. На нашем лучшем понимании, Mini-Omni является первой полностью end-to-end, открытой моделью для взаимодействия в реальном времени с речью, предлагающей ценный потенциал для будущих исследований.
English
Recent advances in language models have achieved significant progress. GPT-4o, as a new milestone, has enabled real-time conversations with humans, demonstrating near-human natural fluency. Such human-computer interaction necessitates models with the capability to perform reasoning directly with the audio modality and generate output in streaming. However, this remains beyond the reach of current academic models, as they typically depend on extra TTS systems for speech synthesis, resulting in undesirable latency. This paper introduces the Mini-Omni, an audio-based end-to-end conversational model, capable of real-time speech interaction. To achieve this capability, we propose a text-instructed speech generation method, along with batch-parallel strategies during inference to further boost the performance. Our method also helps to retain the original model's language capabilities with minimal degradation, enabling other works to establish real-time interaction capabilities. We call this training method "Any Model Can Talk". We also introduce the VoiceAssistant-400K dataset to fine-tune models optimized for speech output. To our best knowledge, Mini-Omni is the first fully end-to-end, open-source model for real-time speech interaction, offering valuable potential for future research.

Summary

AI-Generated Summary

PDF546November 16, 2024