# Qwen3-VL 기술 보고서
Qwen3-VL Technical Report
November 26, 2025
저자: Shuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen, Xionghui Chen, Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo, Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li, Kaixin Li, Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu, Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang, Yuxuan Wang, Tianbao Xie, Yiheng Xu, Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou, Yuanzhi Zhu, Ke Zhu
cs.AI
초록
Qwen3-VL은 Qwen 시리즈 역대 가장 강력한 비전-언어 모델로, 다양한 멀티모달 벤치마크에서 최고 수준의 성능을 달성했습니다. 본 모델은 최대 256K 토큰의 텍스트, 이미지, 비디오가 혼합된 입력을 기본적으로 지원합니다. 모델 패밀리는 다양한 지연 시간-품질 트레이드오프를 수용하기 위해 Dense(2B/4B/8B/32B) 및 Mixture-of-Experts(30B-A3B/235B-A22B) 변종을 모두 포함합니다. Qwen3-VL은 세 가지 핵심 축을 제공합니다: (i) 순수 텍스트 이해 능력이 현저히 강화되어 여러 경우에 동등 규모의 텍스트 전용 백본 모델을 능가함, (ii) 텍스트 및 멀티모달 혼합 입력 모두에 대해 기본 256K 토큰 윈도우를 갖춘 강력한 장문 맥락 이해 능력으로 긴 문서와 비디오에 걸쳐 정확한 정보 보존, 검색 및 상호 참조가 가능함, (iii) 단일 이미지, 다중 이미지, 비디오 작업을 아우르는 고급 멀티모달 추론 능력으로 MMMU 및 시각-수학 벤치마크(MathVista, MathVision 등)와 같은 포괄적 평가에서 선도적인 성능을 보여줌. 아키텍처 측면에서 세 가지 주요 개선사항을 도입했습니다: (i) 이미지와 비디오에 걸친 강력한 시공간 모델링을 위한 향상된 Interleaved-MRoPE, (ii) 다중 수준 ViT 특징을 효과적으로 활용하여 비전-언어 정렬을 강화하는 DeepStack 통합, (iii) 비디오를 위한 텍스트 기반 시간 정렬로, T-RoPE에서 명시적 텍스트 타임스탬프 정렬 방식으로 발전하여 더 정밀한 시간 근거 설정이 가능함. 유사한 토큰 예산과 지연 시간 제약 하에서 Qwen3-VL은 Dense 및 MoE 구조 모두에서 우수한 성능을 달성합니다. 우리는 Qwen3-VL이 실제 워크플로우에서 이미지 기반 추론, 에이전트 의사 결정, 멀티모달 코드 인텔리전스를 위한 기초 엔진으로 역할할 것으로 기대합니다.
English
We introduce Qwen3-VL, the most capable vision-language model in the Qwen series to date, achieving superior performance across a broad range of multimodal benchmarks. It natively supports interleaved contexts of up to 256K tokens, seamlessly integrating text, images, and video. The model family includes both dense (2B/4B/8B/32B) and mixture-of-experts (30B-A3B/235B-A22B) variants to accommodate diverse latency-quality trade-offs. Qwen3-VL delivers three core pillars: (i) markedly stronger pure-text understanding, surpassing comparable text-only backbones in several cases; (ii) robust long-context comprehension with a native 256K-token window for both text and interleaved multimodal inputs, enabling faithful retention, retrieval, and cross-referencing across long documents and videos; and (iii) advanced multimodal reasoning across single-image, multi-image, and video tasks, demonstrating leading performance on comprehensive evaluations such as MMMU and visual-math benchmarks (e.g., MathVista and MathVision). Architecturally, we introduce three key upgrades: (i) an enhanced interleaved-MRoPE for stronger spatial-temporal modeling across images and video; (ii) DeepStack integration, which effectively leverages multi-level ViT features to tighten vision-language alignment; and (iii) text-based time alignment for video, evolving from T-RoPE to explicit textual timestamp alignment for more precise temporal grounding. Under comparable token budgets and latency constraints, Qwen3-VL achieves superior performance in both dense and Mixture-of-Experts (MoE) architectures. We envision Qwen3-VL serving as a foundational engine for image-grounded reasoning, agentic decision-making, and multimodal code intelligence in real-world workflows.