Технический отчет по Qwen3.5-Omni
Qwen3.5-Omni Technical Report
April 17, 2026
Авторы: Qwen Team
cs.AI
Аннотация
В данной работе мы представляем Qwen3.5-Omni — новейшее достижение в семействе моделей Qwen-Omni. Эта модель знаменует значительную эволюцию по сравнению с предшественницей: Qwen3.5-Omni масштабируется до сотен миллиардов параметров и поддерживает длину контекста в 256 тыс. токенов. Благодаря использованию масштабного набора данных, включающего гетерогенные текст-визуальные пары и более 100 миллионов часов аудиовизуального контента, модель демонстрирует надежные омнимодальные способности. Qwen3.5-Omni-plus достигает state-of-the-art (SOTA) результатов в 215 подзадачах и бенчмарках, связанных с аудио- и аудиовизуальным пониманием, рассуждением и взаимодействием, превосходя Gemini-3.1 Pro в ключевых аудиозадачах и соответствуя ей по комплексному аудиовизуальному пониманию.
С архитектурной точки зрения, Qwen3.5-Omni использует гибридную фреймворк Mixture of Experts (MoE) со смешанным вниманием (Hybrid Attention) как для модуля "Thinker", так и для модуля "Talker", что обеспечивает эффективный вывод для длинных последовательностей. Модель поддерживает сложное взаимодействие, включая понимание аудио длительностью более 10 часов и видео в формате 720P длительностью 400 секунд (на скорости 1 кадр/с). Для решения проблемы присущей потоковому синтезу речи нестабильности и неестественности, часто вызванной различиями в эффективности кодирования текстовых и речевых токенизаторов, мы представляем ARIA. ARIA динамически выравнивает текстовые и речевые единицы, значительно повышая стабильность и просодию разговорной речи при минимальном влиянии на задержку.
Кроме того, Qwen3.5-Omni расширяет лингвистические границы, поддерживая многозадачное понимание и генерацию речи на 10 языках с эмоциональными нюансами, подобными человеческим. Наконец, Qwen3.5-Omni демонстрирует превосходные способности к аудиовизуальному grounding'у, генерируя структурированные описания на уровне сценария с точной временной синхронизацией и автоматической сегментацией сцен. Примечательно, что мы наблюдали emergence новой способности в омнимодальных моделях: прямое выполнение программирования на основе аудиовизуальных инструкций, что мы назвали Audio-Visual Vibe Coding.
English
In this work, we present Qwen3.5-Omni, the latest advancement in the Qwen-Omni model family. Representing a significant evolution over its predecessor, Qwen3.5-Omni scales to hundreds of billions of parameters and supports a 256k context length. By leveraging a massive dataset comprising heterogeneous text-vision pairs and over 100 million hours of audio-visual content, the model demonstrates robust omni-modality capabilities. Qwen3.5-Omni-plus achieves SOTA results across 215 audio and audio-visual understanding, reasoning, and interaction subtasks and benchmarks, surpassing Gemini-3.1 Pro in key audio tasks and matching it in comprehensive audio-visual understanding. Architecturally, Qwen3.5-Omni employs a Hybrid Attention Mixture-of-Experts (MoE) framework for both Thinker and Talker, enabling efficient long-sequence inference. The model facilitates sophisticated interaction, supporting over 10 hours of audio understanding and 400 seconds of 720P video (at 1 FPS). To address the inherent instability and unnaturalness in streaming speech synthesis, often caused by encoding efficiency discrepancies between text and speech tokenizers, we introduce ARIA. ARIA dynamically aligns text and speech units, significantly enhancing the stability and prosody of conversational speech with minimal latency impact. Furthermore, Qwen3.5-Omni expands linguistic boundaries, supporting multilingual understanding and speech generation across 10 languages with human-like emotional nuance. Finally, Qwen3.5-Omni exhibits superior audio-visual grounding capabilities, generating script-level structured captions with precise temporal synchronization and automated scene segmentation. Remarkably, we observed the emergence of a new capability in omnimodal models: directly performing coding based on audio-visual instructions, which we call Audio-Visual Vibe Coding.