Rapport Technique de Qwen3-Omni
Qwen3-Omni Technical Report
September 22, 2025
papers.authors: Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin
cs.AI
papers.abstract
Nous présentons Qwen3-Omni, un modèle multimodal unique qui, pour la première fois, maintient des performances de pointe à travers le texte, l'image, l'audio et la vidéo sans aucune dégradation par rapport à ses homologues unimodaux. Qwen3-Omni égalise les performances des modèles unimodaux de même taille dans la série Qwen et excelle particulièrement sur les tâches audio. Sur 36 benchmarks audio et audio-visuels, Qwen3-Omni atteint l'état de l'art (SOTA) open-source sur 32 benchmarks et le SOTA global sur 22, surpassant des modèles propriétaires puissants tels que Gemini-2.5-Pro, Seed-ASR et GPT-4o-Transcribe. Qwen3-Omni adopte une architecture Thinker-Talker MoE qui unifie la perception et la génération à travers le texte, les images, l'audio et la vidéo, produisant un texte fluide et une parole naturelle en temps réel. Il prend en charge l'interaction textuelle dans 119 langues, la compréhension de la parole dans 19 langues et la génération de parole dans 10 langues. Pour réduire la latence du premier paquet dans la synthèse en flux continu, Talker prédit de manière autorégressive des codecs vocaux discrets en utilisant un schéma multi-codebook. En exploitant la capacité de représentation de ces codebooks, nous remplaçons la diffusion par blocs, coûteuse en calcul, par un ConvNet causal léger, permettant un streaming dès la première trame de codec. Dans des conditions de démarrage à froid, Qwen3-Omni atteint une latence théorique de bout en bout du premier paquet de 234 ms. Pour renforcer davantage le raisonnement multimodal, nous introduisons un modèle Thinking qui raisonne explicitement sur les entrées de toute modalité. Comme la communauté de recherche manque actuellement d'un modèle généraliste de description audio, nous avons affiné Qwen3-Omni-30B-A3B pour obtenir Qwen3-Omni-30B-A3B-Captioner, qui produit des descriptions détaillées et peu hallucinatoires pour des entrées audio arbitraires. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking et Qwen3-Omni-30B-A3B-Captioner sont publiés publiquement sous la licence Apache 2.0.
English
We present Qwen3-Omni, a single multimodal model that, for the first time,
maintains state-of-the-art performance across text, image, audio, and video
without any degradation relative to single-modal counterparts. Qwen3-Omni
matches the performance of same-sized single-modal models within the Qwen
series and excels particularly on audio tasks. Across 36 audio and audio-visual
benchmarks, Qwen3-Omni achieves open-source SOTA on 32 benchmarks and overall
SOTA on 22, outperforming strong closed-source models such as Gemini-2.5-Pro,
Seed-ASR, and GPT-4o-Transcribe. Qwen3-Omni adopts a Thinker-Talker MoE
architecture that unifies perception and generation across text, images, audio,
and video, yielding fluent text and natural real-time speech. It supports text
interaction in 119 languages, speech understanding in 19 languages, and speech
generation in 10 languages. To reduce first-packet latency in streaming
synthesis, Talker autoregressively predicts discrete speech codecs using a
multi-codebook scheme. Leveraging the representational capacity of these
codebooks, we replace computationally intensive block-wise diffusion with a
lightweight causal ConvNet, enabling streaming from the first codec frame. In
cold-start settings, Qwen3-Omni achieves a theoretical end-to-end first-packet
latency of 234 ms. To further strengthen multimodal reasoning, we introduce a
Thinking model that explicitly reasons over inputs from any modality. Since the
research community currently lacks a general-purpose audio captioning model, we
fine-tuned Qwen3-Omni-30B-A3B to obtain Qwen3-Omni-30B-A3B-Captioner, which
produces detailed, low-hallucination captions for arbitrary audio inputs.
Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, and
Qwen3-Omni-30B-A3B-Captioner are publicly released under the Apache 2.0
license.