Qwen3.5-Omni技术报告 ## 摘要 Qwen3.5-Omni是阿里巴巴通义千问团队开发的最新多模态大语言模型（MLLM），在文本、视觉、语音等多种模态的理解和生成能力上均实现了显著提升。本报告详细介绍了Qwen3.5-Omni的架构设计、训练方法、关键技术创新以及全面的能力评估。模型采用统一的解码器架构，通过高效的训练策略，实现了多模态能力的深度融合与协同。评估结果表明，Qwen3.5-Omni在多项国际标准基准测试中达到了领先水平，尤其在跨模态对话、文档理解、音频处理等复杂任务上表现出色。本报告旨在为研究社区提供详尽的技术参考，并推动多模态人工智能技术的发展。 ## 1 引言近年来，多模态大语言模型在理解和生成交织多种类型信息（如文本、图像、音频）方面展现出巨大潜力。然而，开发一个能够无缝集成并高效处理多种模态的通用模型仍面临诸多挑战，包括架构设计、训练效率以及模态对齐等问题。 Qwen3.5-Omni作为Qwen系列模型的重要演进，旨在应对这些挑战。其核心目标是构建一个真正通用的、支持任意模态组合输入和输出的AI助手。与之前版本相比，Qwen3.5-Omni的主要突破在于： 1. 统一的解码器架构：采用简洁而强大的Transformer解码器，统一处理所有模态的信号。 2. 增强的多模态能力：显著提升了图像理解、视觉问答、音频理解、语音识别与生成等能力。 3. 高效的训练流程：通过改进的预训练和指令微调策略，实现了更快的收敛速度和更好的性能。 4. 扩展的上下文窗口：支持更长的交互历史和更复杂的多轮多模态对话。本报告的结构如下：第2节介绍模型架构，第3节阐述训练数据和流程，第4节展示详细的评估结果，第5节讨论相关工作和影响，第6节总结报告并展望未来。 ## 2 模型架构 Qwen3.5-Omni基于Transformer解码器架构构建，其核心设计理念是“统一性”。模型通过一个共享的神经网络主干来处理所有模态的信息。 ### 2.1 统一分词与表示为了实现多模态输入的统一处理，我们为每种输入模态设计了特定的处理流程： * 文本：使用标准的Qwen tokenizer进行处理。 * 图像：采用高性能视觉编码器将图像转换为视觉特征序列，然后通过投影层映射到语言模型的嵌入空间。 * 音频：设计专用的音频编码器提取音频特征，同样经过投影层对齐到文本嵌入空间。所有模态的特征在经过各自的编码器后，都会被转换为一系列向量，并与其他模态的向量拼接在一起，形成统一的序列输入到后续的Transformer解码器中。 ### 2.2 解码器主干模型的主干是一个经过大规模文本和多模态数据预训练的Transformer解码器。它采用最新的注意力机制优化技术，如分组查询注意力（GQA），以降低推理时的内存占用并提高速度。同时，模型支持扩展的上下文长度（例如128K tokens），能够处理长文档和复杂的多轮对话。 ### 2.3 多模态生成对于生成任务，Qwen3.5-Omni能够根据指令生成文本、描述图像内容，或通过集成语音解码器合成语音。这种灵活的生成能力使其能够适应多样化的应用场景。 ## 3 训练 Qwen3.5-Omni的训练分为两个主要阶段：预训练和指令微调。 ### 3.1 预训练在预训练阶段，模型使用海量的高质量文本、图像-文本对、音频-文本对数据进行训练。训练目标是通过自回归方式预测下一个token，使模型学习到跨模态的通用表示和基础的世界知识。我们采用了课程学习策略，逐步引入更复杂、质量更高的多模态数据。 ### 3.2 指令微调在预训练的基础上，我们使用大规模、高质量的指令数据进行监督微调（SFT）。这些数据涵盖了广泛的指令遵循任务，包括复杂的多模态推理、创作和对话。通过精心设计的数据混合配方和训练技巧，模型学会了更好地理解用户意图并生成有用、准确、安全的回复。 ## 4 评估我们对Qwen3.5-Omni进行了全面评估，涵盖了通用能力、专业能力、推理能力、指令遵循能力和安全性等多个维度。 ### 4.1 多模态理解基准在主流的多模态基准测试中，如MMMU、MathVista、DocVQA、SpeechQA等，Qwen3.5-Omni均表现出色，在多项任务上达到了领先水平，证明了其强大的跨模态理解和推理能力。表1：Qwen3.5-Omni在多模态基准测试上的表现（示例） | 基准测试 | 指标 | Qwen3.5-Omni得分 | 领先模型对比 | | :--- | :--- | :--- | :--- | | MMMU | Accuracy | [分数] | 优于/持平 [模型名称] | | MathVista | Accuracy | [分数] | 优于/持平 [模型名称] | | DocVQA | ANLS | [分数] | 优于/持平 [模型名称] | ### 4.2 文本能力评估在纯文本任务上，如语言理解（MMLU）、代码生成（HumanEval）和数学推理（GSM8K），Qwen3.5-Omni也保持了与同规模先进纯文本模型相媲美的性能，确保了其作为通用助手的综合实力。 ### 4.3 人工评估除了自动评估，我们还进行了大规模的人工评估。在盲测中，Qwen3.5-Omni在对话质量、帮助性、准确性和安全性方面获得了用户的高度评价，尤其在处理复杂多模态查询时优势明显。 ## 5 相关工作与讨论 Qwen3.5-Omni的研发建立在当前多模态大模型研究的坚实基础之上，并借鉴了业界先进的思想，同时在架构统一性和训练效率方面进行了创新。我们的工作表明，通过精心设计的统一架构和高效训练策略，可以构建出能力全面、性能强大的通用多模态模型。我们也讨论了模型当前的局限性，例如对视频模态的支持、对极细微视觉细节的捕捉等，这些将是未来迭代的重点方向。 ## 6 结论与展望 Qwen3.5-Omni代表了我们在开发通用人工智能助手道路上的重要一步。它展示了强大的多模态理解和生成能力，为更自然、更智能的人机交互奠定了基础。未来，我们将继续致力于： 1. 扩展模型支持的模态，如视频、3D等。 2. 提升模型在复杂推理、专业领域和长上下文理解方面的能力。 3. 进一步增强模型的安全性、可靠性和可操控性。我们相信，Qwen3.5-Omni将为学术界和工业界提供一个强大的基础模型，并期待与社区合作，共同推动AI技术的发展。

Qwen3.5-Omni Technical Report

April 17, 2026

作者: Qwen Team

cs.AI

摘要

本文介紹Qwen3.5-Omni——Qwen-Omni模型系列的最新進展。相較前代模型，Qwen3.5-Omni實現了顯著進化：參數量擴展至數千億級，並支持256K上下文長度。通過融合包含異構圖文對數據及超1億小時音視頻內容的大規模訓練集，該模型展現出強大的全模態能力。Qwen3.5-Omni-plus在215項音頻與音視頻理解、推理及交互子任務與基準測試中取得SOTA成果，關鍵音頻任務超越Gemini-3.1 Pro，綜合音視頻理解能力與之持平。架構層面，Qwen3.5-Omni採用面向Thinker與Talker的混合注意力專家混合框架，實現高效長序列推理。該模型支持精細交互，可處理超10小時音頻理解與400秒720P視頻（1 FPS採樣）。為解決流式語音合成中因文本與語音標記器編碼效率差異導致的固有不穩定性與非自然度問題，我們提出ARIA技術。該技術通過動態對齊文本與語音單元，在幾乎不增加延遲的前提下顯著提升對話語音的穩定性與韻律表現。此外，Qwen3.5-Omni突破語言邊界，支持10種語言的跨語種理解與帶有人類情感細膩度的語音生成。最終，Qwen3.5-Omni展現出卓越的音視頻定位能力，可生成具備精確時間同步與自動場景分割的腳本級結構化描述。值得注意的是，我們觀察到全模態模型中湧現出新能力：基於音視頻指令直接執行編程任務，我們將其命名為音視頻氛圍編程。

English

In this work, we present Qwen3.5-Omni, the latest advancement in the Qwen-Omni model family. Representing a significant evolution over its predecessor, Qwen3.5-Omni scales to hundreds of billions of parameters and supports a 256k context length. By leveraging a massive dataset comprising heterogeneous text-vision pairs and over 100 million hours of audio-visual content, the model demonstrates robust omni-modality capabilities. Qwen3.5-Omni-plus achieves SOTA results across 215 audio and audio-visual understanding, reasoning, and interaction subtasks and benchmarks, surpassing Gemini-3.1 Pro in key audio tasks and matching it in comprehensive audio-visual understanding. Architecturally, Qwen3.5-Omni employs a Hybrid Attention Mixture-of-Experts (MoE) framework for both Thinker and Talker, enabling efficient long-sequence inference. The model facilitates sophisticated interaction, supporting over 10 hours of audio understanding and 400 seconds of 720P video (at 1 FPS). To address the inherent instability and unnaturalness in streaming speech synthesis, often caused by encoding efficiency discrepancies between text and speech tokenizers, we introduce ARIA. ARIA dynamically aligns text and speech units, significantly enhancing the stability and prosody of conversational speech with minimal latency impact. Furthermore, Qwen3.5-Omni expands linguistic boundaries, supporting multilingual understanding and speech generation across 10 languages with human-like emotional nuance. Finally, Qwen3.5-Omni exhibits superior audio-visual grounding capabilities, generating script-level structured captions with precise temporal synchronization and automated scene segmentation. Remarkably, we observed the emergence of a new capability in omnimodal models: directly performing coding based on audio-visual instructions, which we call Audio-Visual Vibe Coding.