Relatório Técnico do Qwen2.5-Omni
Qwen2.5-Omni Technical Report
March 26, 2025
Autores: Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin
cs.AI
Resumo
Neste relatório, apresentamos o Qwen2.5-Omni, um modelo multimodal de ponta a ponta projetado para perceber diversas modalidades, incluindo texto, imagens, áudio e vídeo, enquanto gera respostas em texto e fala natural de forma contínua. Para permitir o processamento contínuo de entradas multimodais, tanto os codificadores de áudio quanto os visuais utilizam uma abordagem de processamento em blocos. Para sincronizar os timestamps das entradas de vídeo com o áudio, organizamos o áudio e o vídeo sequencialmente de forma intercalada e propomos uma nova abordagem de incorporação de posição, denominada TMRoPE (Time-aligned Multimodal RoPE). Para gerar texto e fala simultaneamente, evitando interferências entre as duas modalidades, propomos a arquitetura Thinker-Talker. Neste framework, o Thinker funciona como um grande modelo de linguagem responsável pela geração de texto, enquanto o Talker é um modelo autoregressivo de dupla via que utiliza diretamente as representações ocultas do Thinker para produzir tokens de áudio como saída. Tanto o Thinker quanto o Talker são projetados para serem treinados e inferidos de forma end-to-end. Para decodificar tokens de áudio de forma contínua, introduzimos um DiT de janela deslizante que restringe o campo receptivo, visando reduzir o atraso inicial do pacote. O Qwen2.5-Omni é comparável ao Qwen2.5-VL de tamanho similar e supera o Qwen2-Audio. Além disso, o Qwen2.5-Omni alcança desempenho de ponta em benchmarks multimodais como o Omni-Bench. Notavelmente, o desempenho do Qwen2.5-Omni na execução de instruções de fala end-to-end é comparável às suas capacidades com entradas de texto, conforme evidenciado por benchmarks como MMLU e GSM8K. Quanto à geração de fala, o Talker contínuo do Qwen2.5-Omni supera a maioria das alternativas existentes, tanto contínuas quanto não contínuas, em robustez e naturalidade.
English
In this report, we present Qwen2.5-Omni, an end-to-end multimodal model
designed to perceive diverse modalities, including text, images, audio, and
video, while simultaneously generating text and natural speech responses in a
streaming manner. To enable the streaming of multimodal information inputs,
both audio and visual encoders utilize a block-wise processing approach. To
synchronize the timestamps of video inputs with audio, we organize the audio
and video sequentially in an interleaved manner and propose a novel position
embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently
generate text and speech while avoiding interference between the two
modalities, we propose Thinker-Talker architecture. In this framework,
Thinker functions as a large language model tasked with text generation, while
Talker is a dual-track autoregressive model that directly utilizes the hidden
representations from the Thinker to produce audio tokens as output. Both the
Thinker and Talker models are designed to be trained and inferred in an
end-to-end manner. For decoding audio tokens in a streaming manner, we
introduce a sliding-window DiT that restricts the receptive field, aiming to
reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly
sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni
achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench.
Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following
is comparable to its capabilities with text inputs, as evidenced by benchmarks
such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming
Talker outperforms most existing streaming and non-streaming alternatives in
robustness and naturalness.Summary
AI-Generated Summary