ChatPaper.aiChatPaper

# Informe Técnico de Qwen3.5-Omni

Qwen3.5-Omni Technical Report

April 17, 2026
Autores: Qwen Team
cs.AI

Resumen

En este trabajo, presentamos Qwen3.5-Omni, el avance más reciente de la familia de modelos Qwen-Omni. Representando una evolución significativa respecto a su predecesor, Qwen3.5-Omni escala a cientos de miles de millones de parámetros y soporta una longitud de contexto de 256k. Al aprovechar un conjunto de datos masivo que comprende pares texto-visión heterogéneos y más de 100 millones de horas de contenido audiovisual, el modelo demuestra capacidades robustas de omni-modalidad. Qwen3.5-Omni-plus logra resultados de vanguardia (SOTA) en 215 subtareas y puntos de referencia de comprensión, razonamiento e interacción de audio y audiovisuales, superando a Gemini-3.1 Pro en tareas clave de audio e igualándolo en comprensión audiovisual integral. Arquitectónicamente, Qwen3.5-Omni emplea un marco de Mezcla de Expertos con Atención Híbrida (Hybrid Attention Mixture-of-Experts, MoE) tanto para el "Pensador" (Thinker) como para el "Hablador" (Talker), permitiendo una inferencia eficiente de secuencias largas. El modelo facilita una interacción sofisticada, soportando más de 10 horas de comprensión de audio y 400 segundos de video 720P (a 1 FPS). Para abordar la inestabilidad inherente y la falta de naturalidad en la síntesis de voz en streaming, a menudo causada por discrepancias en la eficiencia de codificación entre los tokenizadores de texto y voz, presentamos ARIA. ARIA alinea dinámicamente las unidades de texto y voz, mejorando significativamente la estabilidad y la prosodia del habla conversacional con un impacto mínimo en la latencia. Además, Qwen3.5-Omni expande las fronteras lingüísticas, soportando la comprensión multilingüe y la generación de voz en 10 idiomas con matices emocionales similares a los humanos. Finalmente, Qwen3.5-Omni exhibe capacidades superiores de fundamentación audiovisual, generando subtítulos estructurados a nivel de guión con sincronización temporal precisa y segmentación automática de escenas. Notablemente, observamos la emergencia de una nueva capacidad en los modelos omnimodales: realizar codificación directamente basada en instrucciones audiovisuales, a la que denominamos Codificación de Ambiente Audiovisual (Audio-Visual Vibe Coding).
English
In this work, we present Qwen3.5-Omni, the latest advancement in the Qwen-Omni model family. Representing a significant evolution over its predecessor, Qwen3.5-Omni scales to hundreds of billions of parameters and supports a 256k context length. By leveraging a massive dataset comprising heterogeneous text-vision pairs and over 100 million hours of audio-visual content, the model demonstrates robust omni-modality capabilities. Qwen3.5-Omni-plus achieves SOTA results across 215 audio and audio-visual understanding, reasoning, and interaction subtasks and benchmarks, surpassing Gemini-3.1 Pro in key audio tasks and matching it in comprehensive audio-visual understanding. Architecturally, Qwen3.5-Omni employs a Hybrid Attention Mixture-of-Experts (MoE) framework for both Thinker and Talker, enabling efficient long-sequence inference. The model facilitates sophisticated interaction, supporting over 10 hours of audio understanding and 400 seconds of 720P video (at 1 FPS). To address the inherent instability and unnaturalness in streaming speech synthesis, often caused by encoding efficiency discrepancies between text and speech tokenizers, we introduce ARIA. ARIA dynamically aligns text and speech units, significantly enhancing the stability and prosody of conversational speech with minimal latency impact. Furthermore, Qwen3.5-Omni expands linguistic boundaries, supporting multilingual understanding and speech generation across 10 languages with human-like emotional nuance. Finally, Qwen3.5-Omni exhibits superior audio-visual grounding capabilities, generating script-level structured captions with precise temporal synchronization and automated scene segmentation. Remarkably, we observed the emergence of a new capability in omnimodal models: directly performing coding based on audio-visual instructions, which we call Audio-Visual Vibe Coding.
PDF220April 21, 2026