Технический отчет по Qwen2.5-OmniQwen2.5-Omni Technical Report
В данном отчете мы представляем Qwen2.5-Omni, сквозную мультимодальную модель, способную воспринимать различные модальности, включая текст, изображения, аудио и видео, одновременно генерируя текстовые и речевые ответы в потоковом режиме. Для обеспечения потоковой обработки мультимодальных входных данных как аудио, так и визуальные кодировщики используют блочный подход к обработке. Для синхронизации временных меток видео с аудио мы организуем аудио и видео последовательно в чередующемся порядке и предлагаем новый метод позиционного кодирования, названный TMRoPE (Time-aligned Multimodal RoPE). Для одновременной генерации текста и речи без взаимного влияния между этими модальностями мы предлагаем архитектуру Thinker-Talker. В этой структуре Thinker выполняет функцию крупной языковой модели, отвечающей за генерацию текста, а Talker представляет собой двухканальную авторегрессионную модель, которая напрямую использует скрытые представления из Thinker для генерации аудио токенов на выходе. Обе модели Thinker и Talker разработаны для сквозного обучения и вывода. Для декодирования аудио токенов в потоковом режиме мы вводим скользящее окно DiT, которое ограничивает рецептивное поле с целью уменьшения начальной задержки пакета. Qwen2.5-Omni сопоставим по производительности с моделью аналогичного размера Qwen2.5-VL и превосходит Qwen2-Audio. Кроме того, Qwen2.5-Omni демонстрирует передовые результаты на мультимодальных тестах, таких как Omni-Bench. Примечательно, что производительность Qwen2.5-Omni в задачах сквозного следования речевым инструкциям сопоставима с его возможностями при работе с текстовыми входами, что подтверждается тестами, такими как MMLU и GSM8K. Что касается генерации речи, потоковый Talker Qwen2.5-Omni превосходит большинство существующих потоковых и не потоковых альтернатив по устойчивости и естественности.