Informe Técnico de Qwen2.5-Omni
Qwen2.5-Omni Technical Report
March 26, 2025
Autores: Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin
cs.AI
Resumen
En este informe, presentamos Qwen2.5-Omni, un modelo multimodal de extremo a extremo diseñado para percibir diversas modalidades, incluyendo texto, imágenes, audio y video, mientras genera simultáneamente respuestas en texto y habla natural de manera continua. Para habilitar el flujo continuo de entradas de información multimodal, tanto los codificadores de audio como los visuales utilizan un enfoque de procesamiento por bloques. Para sincronizar las marcas de tiempo de las entradas de video con el audio, organizamos el audio y el video de manera secuencial e intercalada, y proponemos un nuevo enfoque de incrustación posicional denominado TMRoPE (Time-aligned Multimodal RoPE). Para generar texto y habla de manera concurrente evitando la interferencia entre ambas modalidades, proponemos la arquitectura Thinker-Talker. En este marco, Thinker funciona como un modelo de lenguaje grande encargado de la generación de texto, mientras que Talker es un modelo autorregresivo de doble pista que utiliza directamente las representaciones ocultas de Thinker para producir tokens de audio como salida. Tanto el modelo Thinker como el Talker están diseñados para ser entrenados e inferidos de manera integral. Para decodificar tokens de audio de forma continua, introducimos un DiT de ventana deslizante que limita el campo receptivo, con el objetivo de reducir el retardo inicial del paquete. Qwen2.5-Omni es comparable con Qwen2.5-VL de tamaño similar y supera a Qwen2-Audio. Además, Qwen2.5-Omni logra un rendimiento de vanguardia en benchmarks multimodales como Omni-Bench. Cabe destacar que el rendimiento de Qwen2.5-Omni en la ejecución de instrucciones de habla de extremo a extremo es comparable a sus capacidades con entradas de texto, como lo demuestran benchmarks como MMLU y GSM8K. En cuanto a la generación de habla, el Talker continuo de Qwen2.5-Omni supera a la mayoría de las alternativas existentes, tanto continuas como no continuas, en robustez y naturalidad.
English
In this report, we present Qwen2.5-Omni, an end-to-end multimodal model
designed to perceive diverse modalities, including text, images, audio, and
video, while simultaneously generating text and natural speech responses in a
streaming manner. To enable the streaming of multimodal information inputs,
both audio and visual encoders utilize a block-wise processing approach. To
synchronize the timestamps of video inputs with audio, we organize the audio
and video sequentially in an interleaved manner and propose a novel position
embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently
generate text and speech while avoiding interference between the two
modalities, we propose Thinker-Talker architecture. In this framework,
Thinker functions as a large language model tasked with text generation, while
Talker is a dual-track autoregressive model that directly utilizes the hidden
representations from the Thinker to produce audio tokens as output. Both the
Thinker and Talker models are designed to be trained and inferred in an
end-to-end manner. For decoding audio tokens in a streaming manner, we
introduce a sliding-window DiT that restricts the receptive field, aiming to
reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly
sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni
achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench.
Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following
is comparable to its capabilities with text inputs, as evidenced by benchmarks
such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming
Talker outperforms most existing streaming and non-streaming alternatives in
robustness and naturalness.Summary
AI-Generated Summary