# Rapporto Tecnico di Qwen3.5-Omni

Abstract

In questo lavoro presentiamo Qwen3.5-Omni, il più recente progresso della famiglia di modelli Qwen-Omni. Rappresentando un'evoluzione significativa rispetto al suo predecessore, Qwen3.5-Omni scala fino a centinaia di miliardi di parametri e supporta una lunghezza di contesto di 256k. Sfruttando un dataset massiccio composto da coppie eterogenee testo-immagine e oltre 100 milioni di ore di contenuti audiovisivi, il modello dimostra robuste capacità omni-modali. Qwen3.5-Omni-plus raggiunge risultati allo stato dell'arte (SOTA) su 215 sotto-attività e benchmark di comprensione, ragionamento e interazione audio e audiovisiva, superando Gemini-3.1 Pro in compiti audio chiave e eguagliandolo nella comprensione audiovisiva complessiva. Architetturalmente, Qwen3.5-Omni utilizza un framework Hybrid Attention Mixture-of-Experts (MoE) sia per il Thinker che per il Talker, consentendo un'inferenza efficiente su sequenze lunghe. Il modello facilita un'interazione sofisticata, supportando la comprensione audio per oltre 10 ore e video 720P per 400 secondi (a 1 FPS). Per affrontare l'innata instabilità e innaturalità nella sintesi vocale in streaming, spesso causata dalle discrepanze di efficienza di codifica tra i tokenizzatori di testo e parlato, introduciamo ARIA. ARIA allinea dinamicamente le unità di testo e parlato, migliorando significativamente la stabilità e la prosodia del parlato conversazionale con un impatto minimo sulla latenza. Inoltre, Qwen3.5-Omni espande i confini linguistici, supportando la comprensione multilingue e la generazione vocale in 10 lingue con sfumature emotive simili a quelle umane. Infine, Qwen3.5-Omni mostra capacità superiori di grounding audiovisivo, generando didascalie strutturate a livello di script con una precisa sincronizzazione temporale e una segmentazione automatica della scena. Notevolmente, abbiamo osservato l'emergere di una nuova capacità nei modelli omnimodali: eseguire direttamente attività di coding basandosi su istruzioni audiovisive, che abbiamo denominato Audio-Visual Vibe Coding.

English

In this work, we present Qwen3.5-Omni, the latest advancement in the Qwen-Omni model family. Representing a significant evolution over its predecessor, Qwen3.5-Omni scales to hundreds of billions of parameters and supports a 256k context length. By leveraging a massive dataset comprising heterogeneous text-vision pairs and over 100 million hours of audio-visual content, the model demonstrates robust omni-modality capabilities. Qwen3.5-Omni-plus achieves SOTA results across 215 audio and audio-visual understanding, reasoning, and interaction subtasks and benchmarks, surpassing Gemini-3.1 Pro in key audio tasks and matching it in comprehensive audio-visual understanding. Architecturally, Qwen3.5-Omni employs a Hybrid Attention Mixture-of-Experts (MoE) framework for both Thinker and Talker, enabling efficient long-sequence inference. The model facilitates sophisticated interaction, supporting over 10 hours of audio understanding and 400 seconds of 720P video (at 1 FPS). To address the inherent instability and unnaturalness in streaming speech synthesis, often caused by encoding efficiency discrepancies between text and speech tokenizers, we introduce ARIA. ARIA dynamically aligns text and speech units, significantly enhancing the stability and prosody of conversational speech with minimal latency impact. Furthermore, Qwen3.5-Omni expands linguistic boundaries, supporting multilingual understanding and speech generation across 10 languages with human-like emotional nuance. Finally, Qwen3.5-Omni exhibits superior audio-visual grounding capabilities, generating script-level structured captions with precise temporal synchronization and automated scene segmentation. Remarkably, we observed the emergence of a new capability in omnimodal models: directly performing coding based on audio-visual instructions, which we call Audio-Visual Vibe Coding.

# Rapporto Tecnico di Qwen3.5-Omni

Qwen3.5-Omni Technical Report

Abstract

Support