ChatPaper.aiChatPaper

Qwen3-VL Technischer Bericht

Qwen3-VL Technical Report

November 26, 2025
papers.authors: Shuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen, Xionghui Chen, Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo, Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li, Kaixin Li, Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu, Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang, Yuxuan Wang, Tianbao Xie, Yiheng Xu, Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou, Yuanzhi Zhu, Ke Zhu
cs.AI

papers.abstract

Wir stellen Qwen3-VL vor, das bislang leistungsfähigste Vision-Language-Modell der Qwen-Serie, das auf einer breiten Palette multimodaler Benchmarks überlegene Leistung erzielt. Es unterstützt nativ verschachtelte Kontexte von bis zu 256K Tokens und integriert nahtlos Text, Bilder und Videos. Die Modellfamilie umfasst sowohl Dense- (2B/4B/8B/32B) als auch Mixture-of-Experts-Varianten (30B-A3B/235B-A22B), um unterschiedliche Latenz-Qualitäts-Kompromisse zu ermöglichen. Qwen3-VL basiert auf drei Kernpfeilern: (i) deutlich stärkeres reines Textverständnis, das in mehreren Fällen vergleichbare rein textbasierte Backbones übertrifft; (ii) robustes Langzeitkontextverständnis mit einem nativen 256K-Token-Fenster für Text und verschachtelte multimodale Eingaben, das eine zuverlässige Beibehaltung, Abfrage und Querverweise über lange Dokumente und Videos hinweg ermöglicht; und (iii) fortschrittliches multimodales Reasoning für Einzelbild-, Mehrbild- und Videoaufgaben, das führende Leistung bei umfassenden Bewertungen wie MMMU und visuell-mathematischen Benchmarks (z.B. MathVista und MathVision) demonstriert. Architektonisch führen wir drei wichtige Verbesserungen ein: (i) ein erweitertes verschachteltes MRoPE für stärkere räumlich-zeitliche Modellierung über Bilder und Videos hinweg; (ii) DeepStack-Integration, die effektiv mehrstufige ViT-Merkmale nutzt, um die Vision-Language-Ausrichtung zu verstärken; und (iii) textbasierte Zeitausrichtung für Videos, die sich von T-RoPE zur expliziten textuellen Zeitstempelausrichtung für präisere zeitliche Verankerung weiterentwickelt. Unter vergleichbaren Token-Budgets und Latenzbeschränkungen erzielt Qwen3-VL überlegene Leistung in sowohl Dense- als auch Mixture-of-Experts-Architekturen (MoE). Wir sehen Qwen3-VL als grundlegende Engine für bildgestütztes Reasoning, agentenbasierte Entscheidungsfindung und multimodale Code-Intelligenz in realen Arbeitsabläufen.
English
We introduce Qwen3-VL, the most capable vision-language model in the Qwen series to date, achieving superior performance across a broad range of multimodal benchmarks. It natively supports interleaved contexts of up to 256K tokens, seamlessly integrating text, images, and video. The model family includes both dense (2B/4B/8B/32B) and mixture-of-experts (30B-A3B/235B-A22B) variants to accommodate diverse latency-quality trade-offs. Qwen3-VL delivers three core pillars: (i) markedly stronger pure-text understanding, surpassing comparable text-only backbones in several cases; (ii) robust long-context comprehension with a native 256K-token window for both text and interleaved multimodal inputs, enabling faithful retention, retrieval, and cross-referencing across long documents and videos; and (iii) advanced multimodal reasoning across single-image, multi-image, and video tasks, demonstrating leading performance on comprehensive evaluations such as MMMU and visual-math benchmarks (e.g., MathVista and MathVision). Architecturally, we introduce three key upgrades: (i) an enhanced interleaved-MRoPE for stronger spatial-temporal modeling across images and video; (ii) DeepStack integration, which effectively leverages multi-level ViT features to tighten vision-language alignment; and (iii) text-based time alignment for video, evolving from T-RoPE to explicit textual timestamp alignment for more precise temporal grounding. Under comparable token budgets and latency constraints, Qwen3-VL achieves superior performance in both dense and Mixture-of-Experts (MoE) architectures. We envision Qwen3-VL serving as a foundational engine for image-grounded reasoning, agentic decision-making, and multimodal code intelligence in real-world workflows.
PDF841December 5, 2025