Мини-Омни: Языковые модели могут слышать, говорить и размышлять в режиме потоковой передачи.Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
Недавние достижения в области языковых моделей привели к значительному прогрессу. GPT-4o, как новый веха, позволил проводить разговоры в реальном времени с людьми, демонстрируя близкую к человеческой естественную беглость. Такое взаимодействие человека с компьютером требует моделей с возможностью выполнять рассуждения непосредственно с аудио-модальностью и генерировать вывод в потоке. Однако это остается вне досягаемости текущих академических моделей, поскольку они обычно зависят от дополнительных систем синтеза речи для речевого синтеза, что приводит к нежелательной задержке. В данной статье представлен Mini-Omni, аудио-ориентированная конверсационная модель end-to-end, способная к взаимодействию в реальном времени. Для достижения этой возможности мы предлагаем метод генерации речи по текстовой инструкции, а также стратегии параллельной обработки пакетов во время вывода для дальнейшего увеличения производительности. Наш метод также помогает сохранить языковые возможности исходной модели с минимальным ухудшением, что позволяет другим работам устанавливать возможности взаимодействия в реальном времени. Мы называем этот метод обучения "Любая Модель Может Говорить". Мы также представляем набор данных VoiceAssistant-400K для донастройки моделей, оптимизированных для речевого вывода. На нашем лучшем понимании, Mini-Omni является первой полностью end-to-end, открытой моделью для взаимодействия в реальном времени с речью, предлагающей ценный потенциал для будущих исследований.