Технический отчет по Qwen2.5-Omni
Qwen2.5-Omni Technical Report
March 26, 2025
Авторы: Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin
cs.AI
Аннотация
В данном отчете мы представляем Qwen2.5-Omni, сквозную мультимодальную модель, способную воспринимать различные модальности, включая текст, изображения, аудио и видео, одновременно генерируя текстовые и речевые ответы в потоковом режиме. Для обеспечения потоковой обработки мультимодальных входных данных как аудио, так и визуальные кодировщики используют блочный подход к обработке. Для синхронизации временных меток видео с аудио мы организуем аудио и видео последовательно в чередующемся порядке и предлагаем новый метод позиционного кодирования, названный TMRoPE (Time-aligned Multimodal RoPE). Для одновременной генерации текста и речи без взаимного влияния между этими модальностями мы предлагаем архитектуру Thinker-Talker. В этой структуре Thinker выполняет функцию крупной языковой модели, отвечающей за генерацию текста, а Talker представляет собой двухканальную авторегрессионную модель, которая напрямую использует скрытые представления из Thinker для генерации аудио токенов на выходе. Обе модели Thinker и Talker разработаны для сквозного обучения и вывода. Для декодирования аудио токенов в потоковом режиме мы вводим скользящее окно DiT, которое ограничивает рецептивное поле с целью уменьшения начальной задержки пакета. Qwen2.5-Omni сопоставим по производительности с моделью аналогичного размера Qwen2.5-VL и превосходит Qwen2-Audio. Кроме того, Qwen2.5-Omni демонстрирует передовые результаты на мультимодальных тестах, таких как Omni-Bench. Примечательно, что производительность Qwen2.5-Omni в задачах сквозного следования речевым инструкциям сопоставима с его возможностями при работе с текстовыми входами, что подтверждается тестами, такими как MMLU и GSM8K. Что касается генерации речи, потоковый Talker Qwen2.5-Omni превосходит большинство существующих потоковых и не потоковых альтернатив по устойчивости и естественности.
English
In this report, we present Qwen2.5-Omni, an end-to-end multimodal model
designed to perceive diverse modalities, including text, images, audio, and
video, while simultaneously generating text and natural speech responses in a
streaming manner. To enable the streaming of multimodal information inputs,
both audio and visual encoders utilize a block-wise processing approach. To
synchronize the timestamps of video inputs with audio, we organize the audio
and video sequentially in an interleaved manner and propose a novel position
embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently
generate text and speech while avoiding interference between the two
modalities, we propose Thinker-Talker architecture. In this framework,
Thinker functions as a large language model tasked with text generation, while
Talker is a dual-track autoregressive model that directly utilizes the hidden
representations from the Thinker to produce audio tokens as output. Both the
Thinker and Talker models are designed to be trained and inferred in an
end-to-end manner. For decoding audio tokens in a streaming manner, we
introduce a sliding-window DiT that restricts the receptive field, aiming to
reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly
sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni
achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench.
Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following
is comparable to its capabilities with text inputs, as evidenced by benchmarks
such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming
Talker outperforms most existing streaming and non-streaming alternatives in
robustness and naturalness.Summary
AI-Generated Summary