ChatPaper.aiChatPaper

Qwen3.5-Omni Technischer Bericht

Qwen3.5-Omni Technical Report

April 17, 2026
Autoren: Qwen Team
cs.AI

Zusammenfassung

In dieser Arbeit stellen wir Qwen3.5-Omni vor, den neuesten Fortschritt in der Qwen-Omni-Modellfamilie. Es stellt eine bedeutende Weiterentwicklung gegenüber seinem Vorgänger dar, skaliert auf Hunderte von Milliarden Parametern und unterstützt eine Kontextlänge von 256k. Durch die Nutzung eines massiven Datensatzes, der heterogene Text-Bild-Paare und über 100 Millionen Stunden audiovisueller Inhalte umfasst, demonstriert das Modell robuste Omnimodalitätsfähigkeiten. Qwen3.5-Omni-plus erzielt SOTA-Ergebnisse in 215 Audio- und audiovisuellen Verständnis-, Reasoning- und Interaktions-Subtasks und Benchmarks, übertrifft Gemini-3.1 Pro in wichtigen Audio-Aufgaben und erreicht vergleichbare Werte im umfassenden audiovisuellen Verständnis. Architektonisch setzt Qwen3.5-Omni ein Hybrid-Attention-Mixture-of-Experts (MoE)-Framework für sowohl Denker (Thinker) als auch Sprecher (Talker) ein, was eine effiziente Inferenz für lange Sequenzen ermöglicht. Das Modell ermöglicht anspruchsvolle Interaktionen und unterstützt das Verständnis von über 10 Stunden Audio und 400 Sekunden 720p-Video (bei 1 FPS). Um die inhärente Instabilität und Unnatürlichkeit bei Streaming-Sprachsynthese, die oft durch Diskrepanzen in der Kodierungseffizienz zwischen Text- und Sprach-Tokenizern verursacht wird, zu adressieren, führen wir ARIA ein. ARIA aligniert Text- und Spracheinheiten dynamisch und verbessert die Stabilität und Prosodie von Konversationssprache signifikant bei minimaler Latenzverzögerung. Darüber hinaus erweitert Qwen3.5-Omni die linguistischen Grenzen und unterstützt mehrsprachiges Verständnis und Sprachgenerierung in 10 Sprachen mit menschenähnlicher emotionaler Nuancierung. Schließlich weist Qwen3.5-Omni überlegene audiovisuelle Grounding-Fähigkeiten auf, erzeugt script-basierte strukturierte Beschreibungen mit präziser zeitlicher Synchronisation und automatisierter Szenensegmentierung. Bemerkenswerterweise beobachteten wir das Aufkommen einer neuen Fähigkeit in omnimodalen Modellen: das direkte Ausführen von Programmierung basierend auf audiovisuellen Anweisungen, was wir als Audio-Visual Vibe Coding bezeichnen.
English
In this work, we present Qwen3.5-Omni, the latest advancement in the Qwen-Omni model family. Representing a significant evolution over its predecessor, Qwen3.5-Omni scales to hundreds of billions of parameters and supports a 256k context length. By leveraging a massive dataset comprising heterogeneous text-vision pairs and over 100 million hours of audio-visual content, the model demonstrates robust omni-modality capabilities. Qwen3.5-Omni-plus achieves SOTA results across 215 audio and audio-visual understanding, reasoning, and interaction subtasks and benchmarks, surpassing Gemini-3.1 Pro in key audio tasks and matching it in comprehensive audio-visual understanding. Architecturally, Qwen3.5-Omni employs a Hybrid Attention Mixture-of-Experts (MoE) framework for both Thinker and Talker, enabling efficient long-sequence inference. The model facilitates sophisticated interaction, supporting over 10 hours of audio understanding and 400 seconds of 720P video (at 1 FPS). To address the inherent instability and unnaturalness in streaming speech synthesis, often caused by encoding efficiency discrepancies between text and speech tokenizers, we introduce ARIA. ARIA dynamically aligns text and speech units, significantly enhancing the stability and prosody of conversational speech with minimal latency impact. Furthermore, Qwen3.5-Omni expands linguistic boundaries, supporting multilingual understanding and speech generation across 10 languages with human-like emotional nuance. Finally, Qwen3.5-Omni exhibits superior audio-visual grounding capabilities, generating script-level structured captions with precise temporal synchronization and automated scene segmentation. Remarkably, we observed the emergence of a new capability in omnimodal models: directly performing coding based on audio-visual instructions, which we call Audio-Visual Vibe Coding.
PDF220April 21, 2026