Relatório Técnico do Qwen3-Omni
Qwen3-Omni Technical Report
September 22, 2025
Autores: Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin
cs.AI
Resumo
Apresentamos o Qwen3-Omni, um modelo multimodal único que, pela primeira vez, mantém desempenho de ponta em texto, imagem, áudio e vídeo sem qualquer degradação em relação aos modelos unimodais correspondentes. O Qwen3-Omni iguala o desempenho de modelos unimodais de tamanho equivalente da série Qwen e se destaca especialmente em tarefas de áudio. Em 36 benchmarks de áudio e audiovisual, o Qwen3-Omni alcança o estado da arte (SOTA) em código aberto em 32 benchmarks e o SOTA geral em 22, superando modelos proprietários robustos como o Gemini-2.5-Pro, Seed-ASR e GPT-4o-Transcribe. O Qwen3-Omni adota uma arquitetura Thinker-Talker MoE que unifica percepção e geração em texto, imagens, áudio e vídeo, produzindo texto fluente e fala natural em tempo real. Ele suporta interação textual em 119 idiomas, compreensão de fala em 19 idiomas e geração de fala em 10 idiomas. Para reduzir a latência do primeiro pacote na síntese em streaming, o Talker prevê de forma autoregressiva codecs de fala discretos usando um esquema de multicodebook. Aproveitando a capacidade representacional desses codebooks, substituímos a difusão em blocos, computacionalmente intensiva, por uma ConvNet causal leve, permitindo o streaming a partir do primeiro quadro do codec. Em configurações de inicialização a frio, o Qwen3-Omni alcança uma latência teórica de ponta a ponta do primeiro pacote de 234 ms. Para fortalecer ainda mais o raciocínio multimodal, introduzimos um modelo Thinking que raciocina explicitamente sobre entradas de qualquer modalidade. Como a comunidade de pesquisa atualmente carece de um modelo de legendagem de áudio de propósito geral, ajustamos o Qwen3-Omni-30B-A3B para obter o Qwen3-Omni-30B-A3B-Captioner, que produz legendas detalhadas e com baixa alucinação para entradas de áudio arbitrárias. O Qwen3-Omni-30B-A3B, o Qwen3-Omni-30B-A3B-Thinking e o Qwen3-Omni-30B-A3B-Captioner são disponibilizados publicamente sob a licença Apache 2.0.
English
We present Qwen3-Omni, a single multimodal model that, for the first time,
maintains state-of-the-art performance across text, image, audio, and video
without any degradation relative to single-modal counterparts. Qwen3-Omni
matches the performance of same-sized single-modal models within the Qwen
series and excels particularly on audio tasks. Across 36 audio and audio-visual
benchmarks, Qwen3-Omni achieves open-source SOTA on 32 benchmarks and overall
SOTA on 22, outperforming strong closed-source models such as Gemini-2.5-Pro,
Seed-ASR, and GPT-4o-Transcribe. Qwen3-Omni adopts a Thinker-Talker MoE
architecture that unifies perception and generation across text, images, audio,
and video, yielding fluent text and natural real-time speech. It supports text
interaction in 119 languages, speech understanding in 19 languages, and speech
generation in 10 languages. To reduce first-packet latency in streaming
synthesis, Talker autoregressively predicts discrete speech codecs using a
multi-codebook scheme. Leveraging the representational capacity of these
codebooks, we replace computationally intensive block-wise diffusion with a
lightweight causal ConvNet, enabling streaming from the first codec frame. In
cold-start settings, Qwen3-Omni achieves a theoretical end-to-end first-packet
latency of 234 ms. To further strengthen multimodal reasoning, we introduce a
Thinking model that explicitly reasons over inputs from any modality. Since the
research community currently lacks a general-purpose audio captioning model, we
fine-tuned Qwen3-Omni-30B-A3B to obtain Qwen3-Omni-30B-A3B-Captioner, which
produces detailed, low-hallucination captions for arbitrary audio inputs.
Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, and
Qwen3-Omni-30B-A3B-Captioner are publicly released under the Apache 2.0
license.