ChatPaper.aiChatPaper

Relatório Técnico do Qwen3.5-Omni

Qwen3.5-Omni Technical Report

April 17, 2026
Autores: Qwen Team
cs.AI

Resumo

Neste trabalho, apresentamos o Qwen3.5-Omni, o avanço mais recente da família de modelos Qwen-Omni. Representando uma evolução significativa em relação ao seu predecessor, o Qwen3.5-Omni escala para centenas de bilhões de parâmetros e suporta um contexto de 256k tokens. Ao aproveitar um conjunto massivo de dados composto por pares texto-visão heterogêneos e mais de 100 milhões de horas de conteúdo audiovisual, o modelo demonstra capacidades robustas de omni-modalidade. O Qwen3.5-Omni-plus alcança resultados de estado da arte (SOTA) em 215 subtarefas e benchmarks de compreensão, raciocínio e interação de áudio e audiovisual, superando o Gemini-3.1 Pro em tarefas-chave de áudio e equiparando-se a ele na compreensão audiovisual abrangente. Arquitetonicamente, o Qwen3.5-Omni emprega uma estrutura Híbrida de Atenção com Mistura de Especialistas (MoE) tanto para o "Thinker" quanto para o "Talker", permitindo uma inferência eficiente de sequências longas. O modelo facilita interações sofisticadas, suportando mais de 10 horas de compreensão de áudio e 400 segundos de vídeo 720P (a 1 FPS). Para abordar a instabilidade inerente e a falta de naturalidade na síntese de fala em streaming, frequentemente causada por discrepâncias de eficiência de codificação entre os tokenizadores de texto e fala, introduzimos o ARIA. O ARIA alinha dinamicamente as unidades de texto e fala, melhorando significativamente a estabilidade e a prosódia da fala conversacional com impacto mínimo na latência. Além disso, o Qwen3.5-Omni expande as fronteiras linguísticas, suportando compreensão e geração de fala multilingue em 10 idiomas com nuances emocionais semelhantes às humanas. Finalmente, o Qwen3.5-Omni exibe capacidades superiores de ancoragem audiovisual, gerando legendas estruturadas em nível de roteiro com sincronização temporal precisa e segmentação automática de cenas. Notavelmente, observamos o surgimento de uma nova capacidade em modelos omni-modais: executar codificação diretamente com base em instruções audiovisuais, que denominamos de "Codificação por Vibração Audiovisual" (Audio-Visual Vibe Coding).
English
In this work, we present Qwen3.5-Omni, the latest advancement in the Qwen-Omni model family. Representing a significant evolution over its predecessor, Qwen3.5-Omni scales to hundreds of billions of parameters and supports a 256k context length. By leveraging a massive dataset comprising heterogeneous text-vision pairs and over 100 million hours of audio-visual content, the model demonstrates robust omni-modality capabilities. Qwen3.5-Omni-plus achieves SOTA results across 215 audio and audio-visual understanding, reasoning, and interaction subtasks and benchmarks, surpassing Gemini-3.1 Pro in key audio tasks and matching it in comprehensive audio-visual understanding. Architecturally, Qwen3.5-Omni employs a Hybrid Attention Mixture-of-Experts (MoE) framework for both Thinker and Talker, enabling efficient long-sequence inference. The model facilitates sophisticated interaction, supporting over 10 hours of audio understanding and 400 seconds of 720P video (at 1 FPS). To address the inherent instability and unnaturalness in streaming speech synthesis, often caused by encoding efficiency discrepancies between text and speech tokenizers, we introduce ARIA. ARIA dynamically aligns text and speech units, significantly enhancing the stability and prosody of conversational speech with minimal latency impact. Furthermore, Qwen3.5-Omni expands linguistic boundaries, supporting multilingual understanding and speech generation across 10 languages with human-like emotional nuance. Finally, Qwen3.5-Omni exhibits superior audio-visual grounding capabilities, generating script-level structured captions with precise temporal synchronization and automated scene segmentation. Remarkably, we observed the emergence of a new capability in omnimodal models: directly performing coding based on audio-visual instructions, which we call Audio-Visual Vibe Coding.
PDF220April 21, 2026