ChatPaper.aiChatPaper

Qwen3-Omni Technischer Bericht

Qwen3-Omni Technical Report

September 22, 2025
papers.authors: Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin
cs.AI

papers.abstract

Wir präsentieren Qwen3-Omni, ein multimodales Modell, das erstmals eine state-of-the-art Leistung über Text, Bild, Audio und Video hinweg ohne jegliche Einbußen im Vergleich zu einmodalen Gegenstücken aufrechterhält. Qwen3-Omni erreicht die Leistung gleich großer einmodaler Modelle innerhalb der Qwen-Serie und überzeugt insbesondere bei Audio-Aufgaben. Über 36 Audio- und audiovisuelle Benchmarks hinweg erzielt Qwen3-Omni auf 32 Benchmarks den Open-Source-SOTA und auf insgesamt 22 den allgemeinen SOTA, wobei es starke Closed-Source-Modelle wie Gemini-2.5-Pro, Seed-ASR und GPT-4o-Transcribe übertrifft. Qwen3-Omni nutzt eine Thinker-Talker-MoE-Architektur, die Wahrnehmung und Erzeugung über Text, Bilder, Audio und Video vereint und fließenden Text sowie natürliche Echtzeit-Sprache ermöglicht. Es unterstützt Textinteraktion in 119 Sprachen, Spracherkennung in 19 Sprachen und Sprachgenerierung in 10 Sprachen. Um die First-Packet-Latenz bei der Streaming-Synthese zu reduzieren, sagt Talker diskrete Sprachcodecs autoregressiv unter Verwendung eines Multi-Codebook-Schemas voraus. Durch die Nutzung der Repräsentationsfähigkeit dieser Codebooks ersetzen wir rechenintensive blockweise Diffusion durch ein leichtgewichtiges kausales ConvNet, was Streaming ab dem ersten Codec-Frame ermöglicht. In Cold-Start-Szenarien erreicht Qwen3-Omni eine theoretische End-to-End-First-Packet-Latenz von 234 ms. Um das multimodale Denken weiter zu stärken, führen wir ein Thinking-Modell ein, das explizit über Eingaben aus beliebigen Modalitäten schlussfolgert. Da der Forschungsgemeinschaft derzeit ein allgemeiner Audio-Beschreibungsmodell fehlt, haben wir Qwen3-Omni-30B-A3B feinabgestimmt, um Qwen3-Omni-30B-A3B-Captioner zu erhalten, das detaillierte, halluzinationsarme Beschreibungen für beliebige Audioeingaben liefert. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking und Qwen3-Omni-30B-A3B-Captioner werden unter der Apache-2.0-Lizenz öffentlich zugänglich gemacht.
English
We present Qwen3-Omni, a single multimodal model that, for the first time, maintains state-of-the-art performance across text, image, audio, and video without any degradation relative to single-modal counterparts. Qwen3-Omni matches the performance of same-sized single-modal models within the Qwen series and excels particularly on audio tasks. Across 36 audio and audio-visual benchmarks, Qwen3-Omni achieves open-source SOTA on 32 benchmarks and overall SOTA on 22, outperforming strong closed-source models such as Gemini-2.5-Pro, Seed-ASR, and GPT-4o-Transcribe. Qwen3-Omni adopts a Thinker-Talker MoE architecture that unifies perception and generation across text, images, audio, and video, yielding fluent text and natural real-time speech. It supports text interaction in 119 languages, speech understanding in 19 languages, and speech generation in 10 languages. To reduce first-packet latency in streaming synthesis, Talker autoregressively predicts discrete speech codecs using a multi-codebook scheme. Leveraging the representational capacity of these codebooks, we replace computationally intensive block-wise diffusion with a lightweight causal ConvNet, enabling streaming from the first codec frame. In cold-start settings, Qwen3-Omni achieves a theoretical end-to-end first-packet latency of 234 ms. To further strengthen multimodal reasoning, we introduce a Thinking model that explicitly reasons over inputs from any modality. Since the research community currently lacks a general-purpose audio captioning model, we fine-tuned Qwen3-Omni-30B-A3B to obtain Qwen3-Omni-30B-A3B-Captioner, which produces detailed, low-hallucination captions for arbitrary audio inputs. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, and Qwen3-Omni-30B-A3B-Captioner are publicly released under the Apache 2.0 license.
PDF1214September 23, 2025