ChatPaper.aiChatPaper

Rapport Technique de Qwen3-VL

Qwen3-VL Technical Report

November 26, 2025
papers.authors: Shuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen, Xionghui Chen, Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo, Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li, Kaixin Li, Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu, Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang, Yuxuan Wang, Tianbao Xie, Yiheng Xu, Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou, Yuanzhi Zhu, Ke Zhu
cs.AI

papers.abstract

Nous présentons Qwen3-VL, le modèle vision-langage le plus performant de la série Qwen à ce jour, atteignant des résultats supérieurs sur un large éventail de benchmarks multimodaux. Il prend nativement en charge des contextes entrelacés allant jusqu'à 256K tokens, intégrant de manière transparente le texte, les images et la vidéo. La famille de modèles comprend des variantes denses (2B/4B/8B/32B) et à mixture d'experts (30B-A3B/235B-A22B) pour s'adapter à différents compromis latence-qualité. Qwen3-VL repose sur trois piliers fondamentaux : (i) une compréhension du texte pur nettement plus solide, surpassant dans plusieurs cas des modèles de base uniquement textuels comparables ; (ii) une compréhension robuste des contextes longs avec une fenêtre native de 256K tokens pour les entrées textuelles et multimodales entrelacées, permettant une rétention, une récupération et un renvoi fidèles dans de longs documents et vidéos ; et (iii) un raisonnement multimodal avancé pour les tâches sur image unique, images multiples et vidéo, démontrant des performances leaders sur des évaluations complètes telles que MMMU et les benchmarks de raisonnement visuo-mathématique (par exemple, MathVista et MathVision). Sur le plan architectural, nous introduisons trois améliorations clés : (i) un MRoPE entrelacé amélioré pour une modélisation spatio-temporelle plus forte sur les images et la vidéo ; (ii) l'intégration de DeepStack, qui exploite efficacement les caractéristiques ViT multi-niveaux pour resserrer l'alignement vision-langage ; et (iii) un alignement temporel textuel pour la vidéo, évoluant du T-RoPE vers un alignement explicite par horodatages textuels pour un ancrage temporel plus précis. Sous des budgets de tokens et des contraintes de latence comparables, Qwen3-VL atteint des performances supérieures dans les architectures denses et à mixture d'experts (MoE). Nous envisageons Qwen3-VL comme un moteur fondamental pour le raisonnement ancré sur l'image, la prise de décision agentique et l'intelligence du code multimodal dans les flux de travail réels.
English
We introduce Qwen3-VL, the most capable vision-language model in the Qwen series to date, achieving superior performance across a broad range of multimodal benchmarks. It natively supports interleaved contexts of up to 256K tokens, seamlessly integrating text, images, and video. The model family includes both dense (2B/4B/8B/32B) and mixture-of-experts (30B-A3B/235B-A22B) variants to accommodate diverse latency-quality trade-offs. Qwen3-VL delivers three core pillars: (i) markedly stronger pure-text understanding, surpassing comparable text-only backbones in several cases; (ii) robust long-context comprehension with a native 256K-token window for both text and interleaved multimodal inputs, enabling faithful retention, retrieval, and cross-referencing across long documents and videos; and (iii) advanced multimodal reasoning across single-image, multi-image, and video tasks, demonstrating leading performance on comprehensive evaluations such as MMMU and visual-math benchmarks (e.g., MathVista and MathVision). Architecturally, we introduce three key upgrades: (i) an enhanced interleaved-MRoPE for stronger spatial-temporal modeling across images and video; (ii) DeepStack integration, which effectively leverages multi-level ViT features to tighten vision-language alignment; and (iii) text-based time alignment for video, evolving from T-RoPE to explicit textual timestamp alignment for more precise temporal grounding. Under comparable token budgets and latency constraints, Qwen3-VL achieves superior performance in both dense and Mixture-of-Experts (MoE) architectures. We envision Qwen3-VL serving as a foundational engine for image-grounded reasoning, agentic decision-making, and multimodal code intelligence in real-world workflows.
PDF841December 5, 2025