Rapporto Tecnico di Qwen3-Omni
Qwen3-Omni Technical Report
September 22, 2025
Autori: Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin
cs.AI
Abstract
Presentiamo Qwen3-Omni, un modello multimodale unico che, per la prima volta, mantiene prestazioni all'avanguardia su testo, immagini, audio e video senza alcuna degradazione rispetto alle controparti unimodali. Qwen3-Omni eguaglia le prestazioni dei modelli unimodali della stessa dimensione all'interno della serie Qwen e si distingue particolarmente nei compiti audio. Su 36 benchmark audio e audio-visivi, Qwen3-Omni raggiunge lo stato dell'arte (SOTA) open-source su 32 benchmark e lo SOTA complessivo su 22, superando modelli closed-source robusti come Gemini-2.5-Pro, Seed-ASR e GPT-4o-Transcribe. Qwen3-Omni adotta un'architettura Thinker-Talker MoE che unifica percezione e generazione su testo, immagini, audio e video, producendo testo fluido e parlato naturale in tempo reale. Supporta l'interazione testuale in 119 lingue, la comprensione del parlato in 19 lingue e la generazione del parlato in 10 lingue. Per ridurre la latenza del primo pacchetto nella sintesi in streaming, Talker predice autoregressivamente codec vocali discreti utilizzando uno schema multi-codebook. Sfruttando la capacità rappresentativa di questi codebook, sostituiamo la diffussione a blocchi computazionalmente intensiva con una ConvNet causale leggera, abilitando lo streaming dal primo frame del codec. In contesti di avvio a freddo, Qwen3-Omni raggiunge una latenza teorica end-to-end del primo pacchetto di 234 ms. Per rafforzare ulteriormente il ragionamento multimodale, introduciamo un modello Thinking che ragiona esplicitamente sugli input di qualsiasi modalità. Poiché la comunità di ricerca attualmente manca di un modello generico di descrizione audio, abbiamo fine-tuned Qwen3-Omni-30B-A3B per ottenere Qwen3-Omni-30B-A3B-Captioner, che produce descrizioni dettagliate e con bassa allucinazione per input audio arbitrari. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking e Qwen3-Omni-30B-A3B-Captioner sono rilasciati pubblicamente sotto licenza Apache 2.0.
English
We present Qwen3-Omni, a single multimodal model that, for the first time,
maintains state-of-the-art performance across text, image, audio, and video
without any degradation relative to single-modal counterparts. Qwen3-Omni
matches the performance of same-sized single-modal models within the Qwen
series and excels particularly on audio tasks. Across 36 audio and audio-visual
benchmarks, Qwen3-Omni achieves open-source SOTA on 32 benchmarks and overall
SOTA on 22, outperforming strong closed-source models such as Gemini-2.5-Pro,
Seed-ASR, and GPT-4o-Transcribe. Qwen3-Omni adopts a Thinker-Talker MoE
architecture that unifies perception and generation across text, images, audio,
and video, yielding fluent text and natural real-time speech. It supports text
interaction in 119 languages, speech understanding in 19 languages, and speech
generation in 10 languages. To reduce first-packet latency in streaming
synthesis, Talker autoregressively predicts discrete speech codecs using a
multi-codebook scheme. Leveraging the representational capacity of these
codebooks, we replace computationally intensive block-wise diffusion with a
lightweight causal ConvNet, enabling streaming from the first codec frame. In
cold-start settings, Qwen3-Omni achieves a theoretical end-to-end first-packet
latency of 234 ms. To further strengthen multimodal reasoning, we introduce a
Thinking model that explicitly reasons over inputs from any modality. Since the
research community currently lacks a general-purpose audio captioning model, we
fine-tuned Qwen3-Omni-30B-A3B to obtain Qwen3-Omni-30B-A3B-Captioner, which
produces detailed, low-hallucination captions for arbitrary audio inputs.
Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, and
Qwen3-Omni-30B-A3B-Captioner are publicly released under the Apache 2.0
license.