ChatPaper.aiChatPaper

Qwen3-VL Technisch Rapport

Qwen3-VL Technical Report

November 26, 2025
Auteurs: Shuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen, Xionghui Chen, Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo, Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li, Kaixin Li, Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu, Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang, Yuxuan Wang, Tianbao Xie, Yiheng Xu, Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou, Yuanzhi Zhu, Ke Zhu
cs.AI

Samenvatting

Wij introduceren Qwen3-VL, het krachtigste vision-language model tot nu toe in de Qwen-serie, dat superieure prestaties levert op een breed scala aan multimodale benchmarks. Het ondersteunt standaard interleaved contexten van tot 256K tokens, waarbij tekst, afbeeldingen en video naadloos worden geïntegreerd. De modelfamilie omvat zowel dense (2B/4B/8B/32B) als mixture-of-experts (30B-A3B/235B-A22B) varianten om diverse latency-kwaliteit afwegingen mogelijk te maken. Qwen3-VL biedt drie kernpijlers: (i) aanzienlijk sterkere pure-tekstbegrip, dat in verschillende gevallen vergelijkbare tekst-only backbones overstijgt; (ii) robuust begrip van lange contexten met een standaard 256K-token venster voor zowel tekst als interleaved multimodale invoer, waardoor getrouw retentie, retrieval en kruisverwijzing over lange documenten en video's mogelijk wordt; en (iii) geavanceerde multimodale redeneervaardigheden voor taken met één afbeelding, meerdere afbeeldingen en video, waarbij het leidende prestaties demonstreert op uitgebreide evaluaties zoals MMMU en visueel-rekenkundige benchmarks (bijv. MathVista en MathVision). Architecturaal introduceren we drie belangrijke verbeteringen: (i) een verbeterde interleaved-MRoPE voor sterkere spatiotemporele modellering over afbeeldingen en video; (ii) DeepStack-integratie, die effectief gebruikmaakt van multi-level ViT-features om de vision-language uitlijning te versterken; en (iii) op tekst gebaseerde tijduitlijning voor video, evoluerend van T-RoPE naar expliciete tekstuele timestamp-uitlijning voor preciezere temporele verankering. Onder vergelijkbare tokenbudgetten en latencybeperkingen behaalt Qwen3-VL superieure prestaties in zowel dense als Mixture-of-Experts (MoE) architecturen. Wij voorzien dat Qwen3-VL zal dienen als een fundamentele engine voor beeld-gestuurd redeneren, agent-ondersteunde besluitvorming en multimodale code-intelligentie in real-world workflows.
English
We introduce Qwen3-VL, the most capable vision-language model in the Qwen series to date, achieving superior performance across a broad range of multimodal benchmarks. It natively supports interleaved contexts of up to 256K tokens, seamlessly integrating text, images, and video. The model family includes both dense (2B/4B/8B/32B) and mixture-of-experts (30B-A3B/235B-A22B) variants to accommodate diverse latency-quality trade-offs. Qwen3-VL delivers three core pillars: (i) markedly stronger pure-text understanding, surpassing comparable text-only backbones in several cases; (ii) robust long-context comprehension with a native 256K-token window for both text and interleaved multimodal inputs, enabling faithful retention, retrieval, and cross-referencing across long documents and videos; and (iii) advanced multimodal reasoning across single-image, multi-image, and video tasks, demonstrating leading performance on comprehensive evaluations such as MMMU and visual-math benchmarks (e.g., MathVista and MathVision). Architecturally, we introduce three key upgrades: (i) an enhanced interleaved-MRoPE for stronger spatial-temporal modeling across images and video; (ii) DeepStack integration, which effectively leverages multi-level ViT features to tighten vision-language alignment; and (iii) text-based time alignment for video, evolving from T-RoPE to explicit textual timestamp alignment for more precise temporal grounding. Under comparable token budgets and latency constraints, Qwen3-VL achieves superior performance in both dense and Mixture-of-Experts (MoE) architectures. We envision Qwen3-VL serving as a foundational engine for image-grounded reasoning, agentic decision-making, and multimodal code intelligence in real-world workflows.
PDF841December 5, 2025