ChatPaper.aiChatPaper

Qwen3-VL 技術報告書

Qwen3-VL Technical Report

November 26, 2025
著者: Shuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen, Xionghui Chen, Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo, Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li, Kaixin Li, Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu, Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang, Yuxuan Wang, Tianbao Xie, Yiheng Xu, Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou, Yuanzhi Zhu, Ke Zhu
cs.AI

要旨

私たちは今回、Qwenシリーズで最高性能を発揮する視覚言語モデル「Qwen3-VL」を紹介します。本モデルは、多様なマルチモーダルベンチマークにおいて卓越した性能を達成しました。256Kトークンに及ぶインタリーブ(混合)コンテキストをネイティブサポートし、テキスト、画像、動画をシームレスに統合します。モデルファミリーには、様々なレイテンシと品質のトレードオフに対応するため、密結合型(2B/4B/8B/32B)とエキスパート混合型(30B-A3B/235B-A22B)のバリエーションが含まれます。Qwen3-VLは以下の3つの核心的要素を提供します:(i) 純粋なテキスト理解能力の大幅な強化。同等のテキスト専用基盤モデルを複数のケースで凌駕します。(ii) テキスト及びマルチモーダル混合入力双方に対してネイティブの256Kトークンウィンドウを備えた、強固な長文コンテキスト理解能力。長文ドキュメントや動画にわたる正確な情報保持、検索、相互参照を可能にします。(iii) 単一画像、複数画像、動画タスクにわたる高度なマルチモーダル推論能力。MMMUや視覚数学ベンチマーク(MathVista、MathVision等)といった総合的な評価において、最先端の性能を示します。アーキテクチャ的には、3つの主要な改良を導入しました:(i) 画像と動画にわたる時空間モデリングを強化する、改良版インタリーブドMRoPE。(ii) マルチレベルViT特徴量を効果的に活用して視覚と言語の整合性を高める、DeepStackの統合。(iii) 動画向けのテキストベース時間整合。T-RoPEから明示的なテキスト的時間スタンプ整合へと進化し、より精密な時間的定位を実現。同等のトークン予算とレイテンシ制約下において、Qwen3-VLは密結合型及びMoEアーキテクチャの双方で優れた性能を達成します。私たちは、Qwen3-VLが実世界のワークフローにおいて、画像に基づく推論、エージェント的意思決定、マルチモーダルコード知能のための基盤エンジンとして機能することを期待しています。
English
We introduce Qwen3-VL, the most capable vision-language model in the Qwen series to date, achieving superior performance across a broad range of multimodal benchmarks. It natively supports interleaved contexts of up to 256K tokens, seamlessly integrating text, images, and video. The model family includes both dense (2B/4B/8B/32B) and mixture-of-experts (30B-A3B/235B-A22B) variants to accommodate diverse latency-quality trade-offs. Qwen3-VL delivers three core pillars: (i) markedly stronger pure-text understanding, surpassing comparable text-only backbones in several cases; (ii) robust long-context comprehension with a native 256K-token window for both text and interleaved multimodal inputs, enabling faithful retention, retrieval, and cross-referencing across long documents and videos; and (iii) advanced multimodal reasoning across single-image, multi-image, and video tasks, demonstrating leading performance on comprehensive evaluations such as MMMU and visual-math benchmarks (e.g., MathVista and MathVision). Architecturally, we introduce three key upgrades: (i) an enhanced interleaved-MRoPE for stronger spatial-temporal modeling across images and video; (ii) DeepStack integration, which effectively leverages multi-level ViT features to tighten vision-language alignment; and (iii) text-based time alignment for video, evolving from T-RoPE to explicit textual timestamp alignment for more precise temporal grounding. Under comparable token budgets and latency constraints, Qwen3-VL achieves superior performance in both dense and Mixture-of-Experts (MoE) architectures. We envision Qwen3-VL serving as a foundational engine for image-grounded reasoning, agentic decision-making, and multimodal code intelligence in real-world workflows.
PDF841December 5, 2025