ChatPaper.aiChatPaper

Informe Técnico de Qwen3-Omni

Qwen3-Omni Technical Report

September 22, 2025
Autores: Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin
cs.AI

Resumen

Presentamos Qwen3-Omni, un modelo multimodal único que, por primera vez, mantiene un rendimiento de vanguardia en texto, imagen, audio y video sin ninguna degradación en comparación con sus contrapartes unimodales. Qwen3-Omni iguala el rendimiento de los modelos unimodales del mismo tamaño dentro de la serie Qwen y destaca especialmente en tareas de audio. En 36 benchmarks de audio y audiovisuales, Qwen3-Omni alcanza el estado del arte (SOTA) en código abierto en 32 benchmarks y el SOTA general en 22, superando a modelos fuertes de código cerrado como Gemini-2.5-Pro, Seed-ASR y GPT-4o-Transcribe. Qwen3-Omni adopta una arquitectura Thinker-Talker MoE que unifica la percepción y la generación en texto, imágenes, audio y video, produciendo texto fluido y habla natural en tiempo real. Soporta interacción de texto en 119 idiomas, comprensión de habla en 19 idiomas y generación de habla en 10 idiomas. Para reducir la latencia del primer paquete en la síntesis en streaming, Talker predice de manera autoregresiva códecs de habla discretos utilizando un esquema de multicodebook. Aprovechando la capacidad representativa de estos codebooks, reemplazamos la difusión por bloques computacionalmente intensiva con una ConvNet causal ligera, permitiendo el streaming desde el primer frame del codec. En configuraciones de arranque en frío, Qwen3-Omni logra una latencia teórica de extremo a extremo del primer paquete de 234 ms. Para fortalecer aún más el razonamiento multimodal, introducimos un modelo Thinking que razona explícitamente sobre entradas de cualquier modalidad. Dado que la comunidad de investigación actualmente carece de un modelo de descripción de audio de propósito general, ajustamos Qwen3-Omni-30B-A3B para obtener Qwen3-Omni-30B-A3B-Captioner, que produce descripciones detalladas y con baja alucinación para entradas de audio arbitrarias. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking y Qwen3-Omni-30B-A3B-Captioner se publican bajo la licencia Apache 2.0.
English
We present Qwen3-Omni, a single multimodal model that, for the first time, maintains state-of-the-art performance across text, image, audio, and video without any degradation relative to single-modal counterparts. Qwen3-Omni matches the performance of same-sized single-modal models within the Qwen series and excels particularly on audio tasks. Across 36 audio and audio-visual benchmarks, Qwen3-Omni achieves open-source SOTA on 32 benchmarks and overall SOTA on 22, outperforming strong closed-source models such as Gemini-2.5-Pro, Seed-ASR, and GPT-4o-Transcribe. Qwen3-Omni adopts a Thinker-Talker MoE architecture that unifies perception and generation across text, images, audio, and video, yielding fluent text and natural real-time speech. It supports text interaction in 119 languages, speech understanding in 19 languages, and speech generation in 10 languages. To reduce first-packet latency in streaming synthesis, Talker autoregressively predicts discrete speech codecs using a multi-codebook scheme. Leveraging the representational capacity of these codebooks, we replace computationally intensive block-wise diffusion with a lightweight causal ConvNet, enabling streaming from the first codec frame. In cold-start settings, Qwen3-Omni achieves a theoretical end-to-end first-packet latency of 234 ms. To further strengthen multimodal reasoning, we introduce a Thinking model that explicitly reasons over inputs from any modality. Since the research community currently lacks a general-purpose audio captioning model, we fine-tuned Qwen3-Omni-30B-A3B to obtain Qwen3-Omni-30B-A3B-Captioner, which produces detailed, low-hallucination captions for arbitrary audio inputs. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, and Qwen3-Omni-30B-A3B-Captioner are publicly released under the Apache 2.0 license.
PDF1214September 23, 2025