Informe Técnico de Qwen2.5-OmniQwen2.5-Omni Technical Report
En este informe, presentamos Qwen2.5-Omni, un modelo multimodal de extremo a extremo diseñado para percibir diversas modalidades, incluyendo texto, imágenes, audio y video, mientras genera simultáneamente respuestas en texto y habla natural de manera continua. Para habilitar el flujo continuo de entradas de información multimodal, tanto los codificadores de audio como los visuales utilizan un enfoque de procesamiento por bloques. Para sincronizar las marcas de tiempo de las entradas de video con el audio, organizamos el audio y el video de manera secuencial e intercalada, y proponemos un nuevo enfoque de incrustación posicional denominado TMRoPE (Time-aligned Multimodal RoPE). Para generar texto y habla de manera concurrente evitando la interferencia entre ambas modalidades, proponemos la arquitectura Thinker-Talker. En este marco, Thinker funciona como un modelo de lenguaje grande encargado de la generación de texto, mientras que Talker es un modelo autorregresivo de doble pista que utiliza directamente las representaciones ocultas de Thinker para producir tokens de audio como salida. Tanto el modelo Thinker como el Talker están diseñados para ser entrenados e inferidos de manera integral. Para decodificar tokens de audio de forma continua, introducimos un DiT de ventana deslizante que limita el campo receptivo, con el objetivo de reducir el retardo inicial del paquete. Qwen2.5-Omni es comparable con Qwen2.5-VL de tamaño similar y supera a Qwen2-Audio. Además, Qwen2.5-Omni logra un rendimiento de vanguardia en benchmarks multimodales como Omni-Bench. Cabe destacar que el rendimiento de Qwen2.5-Omni en la ejecución de instrucciones de habla de extremo a extremo es comparable a sus capacidades con entradas de texto, como lo demuestran benchmarks como MMLU y GSM8K. En cuanto a la generación de habla, el Talker continuo de Qwen2.5-Omni supera a la mayoría de las alternativas existentes, tanto continuas como no continuas, en robustez y naturalidad.