Технический отчет по Qwen2.5-Omni

Аннотация

В данном отчете мы представляем Qwen2.5-Omni, сквозную мультимодальную модель, способную воспринимать различные модальности, включая текст, изображения, аудио и видео, одновременно генерируя текстовые и речевые ответы в потоковом режиме. Для обеспечения потоковой обработки мультимодальных входных данных как аудио, так и визуальные кодировщики используют блочный подход к обработке. Для синхронизации временных меток видео с аудио мы организуем аудио и видео последовательно в чередующемся порядке и предлагаем новый метод позиционного кодирования, названный TMRoPE (Time-aligned Multimodal RoPE). Для одновременной генерации текста и речи без взаимного влияния между этими модальностями мы предлагаем архитектуру Thinker-Talker. В этой структуре Thinker выполняет функцию крупной языковой модели, отвечающей за генерацию текста, а Talker представляет собой двухканальную авторегрессионную модель, которая напрямую использует скрытые представления из Thinker для генерации аудио токенов на выходе. Обе модели Thinker и Talker разработаны для сквозного обучения и вывода. Для декодирования аудио токенов в потоковом режиме мы вводим скользящее окно DiT, которое ограничивает рецептивное поле с целью уменьшения начальной задержки пакета. Qwen2.5-Omni сопоставим по производительности с моделью аналогичного размера Qwen2.5-VL и превосходит Qwen2-Audio. Кроме того, Qwen2.5-Omni демонстрирует передовые результаты на мультимодальных тестах, таких как Omni-Bench. Примечательно, что производительность Qwen2.5-Omni в задачах сквозного следования речевым инструкциям сопоставима с его возможностями при работе с текстовыми входами, что подтверждается тестами, такими как MMLU и GSM8K. Что касается генерации речи, потоковый Talker Qwen2.5-Omni превосходит большинство существующих потоковых и не потоковых альтернатив по устойчивости и естественности.

English

In this report, we present Qwen2.5-Omni, an end-to-end multimodal model designed to perceive diverse modalities, including text, images, audio, and video, while simultaneously generating text and natural speech responses in a streaming manner. To enable the streaming of multimodal information inputs, both audio and visual encoders utilize a block-wise processing approach. To synchronize the timestamps of video inputs with audio, we organize the audio and video sequentially in an interleaved manner and propose a novel position embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently generate text and speech while avoiding interference between the two modalities, we propose Thinker-Talker architecture. In this framework, Thinker functions as a large language model tasked with text generation, while Talker is a dual-track autoregressive model that directly utilizes the hidden representations from the Thinker to produce audio tokens as output. Both the Thinker and Talker models are designed to be trained and inferred in an end-to-end manner. For decoding audio tokens in a streaming manner, we introduce a sliding-window DiT that restricts the receptive field, aiming to reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench. Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following is comparable to its capabilities with text inputs, as evidenced by benchmarks such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming Talker outperforms most existing streaming and non-streaming alternatives in robustness and naturalness.

Технический отчет по Qwen2.5-Omni

Qwen2.5-Omni Technical Report

Аннотация

Support