Relatório Técnico do Qwen2.5-Omni

Resumo

Neste relatório, apresentamos o Qwen2.5-Omni, um modelo multimodal de ponta a ponta projetado para perceber diversas modalidades, incluindo texto, imagens, áudio e vídeo, enquanto gera respostas em texto e fala natural de forma contínua. Para permitir o processamento contínuo de entradas multimodais, tanto os codificadores de áudio quanto os visuais utilizam uma abordagem de processamento em blocos. Para sincronizar os timestamps das entradas de vídeo com o áudio, organizamos o áudio e o vídeo sequencialmente de forma intercalada e propomos uma nova abordagem de incorporação de posição, denominada TMRoPE (Time-aligned Multimodal RoPE). Para gerar texto e fala simultaneamente, evitando interferências entre as duas modalidades, propomos a arquitetura Thinker-Talker. Neste framework, o Thinker funciona como um grande modelo de linguagem responsável pela geração de texto, enquanto o Talker é um modelo autoregressivo de dupla via que utiliza diretamente as representações ocultas do Thinker para produzir tokens de áudio como saída. Tanto o Thinker quanto o Talker são projetados para serem treinados e inferidos de forma end-to-end. Para decodificar tokens de áudio de forma contínua, introduzimos um DiT de janela deslizante que restringe o campo receptivo, visando reduzir o atraso inicial do pacote. O Qwen2.5-Omni é comparável ao Qwen2.5-VL de tamanho similar e supera o Qwen2-Audio. Além disso, o Qwen2.5-Omni alcança desempenho de ponta em benchmarks multimodais como o Omni-Bench. Notavelmente, o desempenho do Qwen2.5-Omni na execução de instruções de fala end-to-end é comparável às suas capacidades com entradas de texto, conforme evidenciado por benchmarks como MMLU e GSM8K. Quanto à geração de fala, o Talker contínuo do Qwen2.5-Omni supera a maioria das alternativas existentes, tanto contínuas quanto não contínuas, em robustez e naturalidade.

English

In this report, we present Qwen2.5-Omni, an end-to-end multimodal model designed to perceive diverse modalities, including text, images, audio, and video, while simultaneously generating text and natural speech responses in a streaming manner. To enable the streaming of multimodal information inputs, both audio and visual encoders utilize a block-wise processing approach. To synchronize the timestamps of video inputs with audio, we organize the audio and video sequentially in an interleaved manner and propose a novel position embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently generate text and speech while avoiding interference between the two modalities, we propose Thinker-Talker architecture. In this framework, Thinker functions as a large language model tasked with text generation, while Talker is a dual-track autoregressive model that directly utilizes the hidden representations from the Thinker to produce audio tokens as output. Both the Thinker and Talker models are designed to be trained and inferred in an end-to-end manner. For decoding audio tokens in a streaming manner, we introduce a sliding-window DiT that restricts the receptive field, aiming to reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench. Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following is comparable to its capabilities with text inputs, as evidenced by benchmarks such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming Talker outperforms most existing streaming and non-streaming alternatives in robustness and naturalness.

Relatório Técnico do Qwen2.5-Omni

Qwen2.5-Omni Technical Report

Resumo

Support