ChatPaper.aiChatPaper

Rapport Technique de Qwen3.5-Omni

Qwen3.5-Omni Technical Report

April 17, 2026
Auteurs: Qwen Team
cs.AI

Résumé

Dans ce travail, nous présentons Qwen3.5-Omni, la dernière avancée de la famille de modèles Qwen-Omni. Représentant une évolution significative par rapport à son prédécesseur, Qwen3.5-Omni monte en puissance jusqu'à des centaines de milliards de paramètres et prend en charge une longueur de contexte de 256k. En exploitant un jeu de données massif comprenant des paires texte-vision hétérogènes et plus de 100 millions d'heures de contenu audio-visuel, le modèle démontre des capacités omni-modales robustes. Qwen3.5-Omni-plus obtient des résultats SOTA sur 215 sous-tâches et benchmarks de compréhension, de raisonnement et d'interaction audio et audio-visuelle, surpassant Gemini-3.1 Pro dans les tâches audio clés et l'égalant en compréhension audio-visuelle globale. Sur le plan architectural, Qwen3.5-Omni utilise un cadre Mixture-of-Experts (MoE) à Attention Hybride pour le Thinker et le Talker, permettant une inférence efficace sur de longues séquences. Le modèle facilite une interaction sophistiquée, prenant en charge plus de 10 heures de compréhension audio et 400 secondes de vidéo 720P (à 1 FPS). Pour résoudre l'instabilité inhérente et le manque de naturel dans la synthèse vocale en flux continu, souvent causés par les écarts d'efficacité de codage entre les tokenizers de texte et de parole, nous introduisons ARIA. ARIA aligne dynamiquement les unités de texte et de parole, améliorant significativement la stabilité et la prosodie de la parole conversationnelle avec un impact minimal sur la latence. De plus, Qwen3.5-Omni repousse les frontières linguistiques, prenant en charge la compréhension multilingue et la génération de parole dans 10 langues avec des nuances émotionnelles proches de l'humain. Enfin, Qwen3.5-Omni présente des capacités d'ancrage audio-visuel supérieures, générant des légendes structurées au niveau du script avec une synchronisation temporelle précise et une segmentation automatique des scènes. Remarquablement, nous avons observé l'émergence d'une nouvelle capacité dans les modèles omnimodaux : réaliser directement du codage à partir d'instructions audio-visuelles, que nous appelons Audio-Visual Vibe Coding.
English
In this work, we present Qwen3.5-Omni, the latest advancement in the Qwen-Omni model family. Representing a significant evolution over its predecessor, Qwen3.5-Omni scales to hundreds of billions of parameters and supports a 256k context length. By leveraging a massive dataset comprising heterogeneous text-vision pairs and over 100 million hours of audio-visual content, the model demonstrates robust omni-modality capabilities. Qwen3.5-Omni-plus achieves SOTA results across 215 audio and audio-visual understanding, reasoning, and interaction subtasks and benchmarks, surpassing Gemini-3.1 Pro in key audio tasks and matching it in comprehensive audio-visual understanding. Architecturally, Qwen3.5-Omni employs a Hybrid Attention Mixture-of-Experts (MoE) framework for both Thinker and Talker, enabling efficient long-sequence inference. The model facilitates sophisticated interaction, supporting over 10 hours of audio understanding and 400 seconds of 720P video (at 1 FPS). To address the inherent instability and unnaturalness in streaming speech synthesis, often caused by encoding efficiency discrepancies between text and speech tokenizers, we introduce ARIA. ARIA dynamically aligns text and speech units, significantly enhancing the stability and prosody of conversational speech with minimal latency impact. Furthermore, Qwen3.5-Omni expands linguistic boundaries, supporting multilingual understanding and speech generation across 10 languages with human-like emotional nuance. Finally, Qwen3.5-Omni exhibits superior audio-visual grounding capabilities, generating script-level structured captions with precise temporal synchronization and automated scene segmentation. Remarkably, we observed the emergence of a new capability in omnimodal models: directly performing coding based on audio-visual instructions, which we call Audio-Visual Vibe Coding.
PDF220April 21, 2026