ChatPaper.aiChatPaper

# Rapporto Tecnico di Qwen3-VL

Qwen3-VL Technical Report

November 26, 2025
Autori: Shuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen, Xionghui Chen, Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo, Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li, Kaixin Li, Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu, Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang, Yuxuan Wang, Tianbao Xie, Yiheng Xu, Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou, Yuanzhi Zhu, Ke Zhu
cs.AI

Abstract

Presentiamo Qwen3-VL, il modello visione-linguaggio più capace della serie Qwen fino ad oggi, che raggiunge prestazioni superiori su un'ampia gamma di benchmark multimodali. Supporta nativamente contesti interallacciati fino a 256K token, integrando perfettamente testo, immagini e video. La famiglia di modelli include sia varianti dense (2B/4B/8B/32B) che a miscela di esperti (30B-A3B/235B-A22B) per adattarsi a diversi compromessi latenza-qualità. Qwen3-VL si basa su tre pilastri fondamentali: (i) una comprensione del testo puro notevolmente più forte, che supera in diversi casi modelli backbone solo testo comparabili; (ii) una robusta comprensione del contesto lungo con una finestra nativa di 256K token sia per il testo che per gli input multimodali interallacciati, consentendo una fedele ritenzione, recupero e riferimento incrociato in documenti e video lunghi; e (iii) un ragionamento multimodale avanzato su compiti con singola immagine, immagini multiple e video, dimostrando prestazioni leader su valutazioni complete come MMMU e benchmark di matematica visuale (ad es. MathVista e MathVision). Architetturalmente, introduciamo tre miglioramenti chiave: (i) un MRoPE interallacciato potenziato per una modellizzazione spazio-temporale più forte tra immagini e video; (ii) l'integrazione di DeepStack, che sfrutta efficacemente le funzionalità ViT multi-livello per rafforzare l'allineamento visione-linguaggio; e (iii) l'allineamento temporale basato su testo per i video, che evolve dal T-RoPE a un esplicito allineamento con timestamp testuali per un ancoraggio temporale più preciso. Con budget di token e vincoli di latenza comparabili, Qwen3-VL raggiunge prestazioni superiori sia nelle architetture dense che in quelle a Miscela di Esperti (MoE). Prevediamo che Qwen3-VL servirà come motore fondamentale per il ragionamento basato su immagini, il processo decisionale agentivo e l'intelligenza del codice multimodale nei flussi di lavoro reali.
English
We introduce Qwen3-VL, the most capable vision-language model in the Qwen series to date, achieving superior performance across a broad range of multimodal benchmarks. It natively supports interleaved contexts of up to 256K tokens, seamlessly integrating text, images, and video. The model family includes both dense (2B/4B/8B/32B) and mixture-of-experts (30B-A3B/235B-A22B) variants to accommodate diverse latency-quality trade-offs. Qwen3-VL delivers three core pillars: (i) markedly stronger pure-text understanding, surpassing comparable text-only backbones in several cases; (ii) robust long-context comprehension with a native 256K-token window for both text and interleaved multimodal inputs, enabling faithful retention, retrieval, and cross-referencing across long documents and videos; and (iii) advanced multimodal reasoning across single-image, multi-image, and video tasks, demonstrating leading performance on comprehensive evaluations such as MMMU and visual-math benchmarks (e.g., MathVista and MathVision). Architecturally, we introduce three key upgrades: (i) an enhanced interleaved-MRoPE for stronger spatial-temporal modeling across images and video; (ii) DeepStack integration, which effectively leverages multi-level ViT features to tighten vision-language alignment; and (iii) text-based time alignment for video, evolving from T-RoPE to explicit textual timestamp alignment for more precise temporal grounding. Under comparable token budgets and latency constraints, Qwen3-VL achieves superior performance in both dense and Mixture-of-Experts (MoE) architectures. We envision Qwen3-VL serving as a foundational engine for image-grounded reasoning, agentic decision-making, and multimodal code intelligence in real-world workflows.
PDF841December 5, 2025