Технический отчет по Qwen3-VL
Qwen3-VL Technical Report
November 26, 2025
Авторы: Shuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen, Xionghui Chen, Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo, Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li, Kaixin Li, Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu, Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang, Yuxuan Wang, Tianbao Xie, Yiheng Xu, Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou, Yuanzhi Zhu, Ke Zhu
cs.AI
Аннотация
Мы представляем Qwen3-VL — самую совершенную на сегодняшний день мультимодальную модель серии Qwen, демонстрирующую превосходную производительность в широком спектре бенчмарков. Модель изначально поддерживает смешанные контексты объемом до 256 тыс. токенов, бесшовно интегрируя текст, изображения и видео. Семейство моделей включает как плотные архитектуры (2B/4B/8B/32B), так и варианты со смесью экспертов (30B-A3B/235B-A22B) для различных компромиссов между задержкой и качеством. Qwen3-VL основывается на трех ключевых столпах: (i) значительно усиленное понимание чистого текста, превосходящее сравнимые текстовые базовые модели в ряде случаев; (ii) надежное понимание длинных контекстов с нативным окном в 256 тыс. токенов для текстовых и смешанных мультимодальных входных данных, обеспечивающее точное сохранение, извлечение и перекрестные ссылки в длинных документах и видео; (iii) продвинутое мультимодальное мышление в задачах с одним изображением, несколькими изображениями и видео, демонстрирующее лидирующие результаты в комплексных оценках, таких как MMMU и визуально-математические бенчмарки (например, MathVista и MathVision). В архитектурном плане мы внедрили три ключевых улучшения: (i) усовершенствованный переплетенный MRoPE для усиленного пространственно-временного моделирования в изображениях и видео; (ii) интеграцию DeepStack, которая эффективно использует многоуровневые признаки ViT для укрепления согласованности между зрением и языком; (iii) текстовое временное выравнивание для видео, эволюционировавшее от T-RoPE к явному текстовому выравниванию временных меток для более точной временной привязки. При сопоставимых бюджетах токенов и ограничениях задержки Qwen3-VL демонстрирует превосходную производительность как в плотных архитектурах, так и в архитектурах со смесью экспертов. Мы предполагаем, что Qwen3-VL послужит фундаментальным движком для ситуационного мышления на основе изображений, агентского принятия решений и мультимодального кодового интеллекта в реальных рабочих процессах.
English
We introduce Qwen3-VL, the most capable vision-language model in the Qwen series to date, achieving superior performance across a broad range of multimodal benchmarks. It natively supports interleaved contexts of up to 256K tokens, seamlessly integrating text, images, and video. The model family includes both dense (2B/4B/8B/32B) and mixture-of-experts (30B-A3B/235B-A22B) variants to accommodate diverse latency-quality trade-offs. Qwen3-VL delivers three core pillars: (i) markedly stronger pure-text understanding, surpassing comparable text-only backbones in several cases; (ii) robust long-context comprehension with a native 256K-token window for both text and interleaved multimodal inputs, enabling faithful retention, retrieval, and cross-referencing across long documents and videos; and (iii) advanced multimodal reasoning across single-image, multi-image, and video tasks, demonstrating leading performance on comprehensive evaluations such as MMMU and visual-math benchmarks (e.g., MathVista and MathVision). Architecturally, we introduce three key upgrades: (i) an enhanced interleaved-MRoPE for stronger spatial-temporal modeling across images and video; (ii) DeepStack integration, which effectively leverages multi-level ViT features to tighten vision-language alignment; and (iii) text-based time alignment for video, evolving from T-RoPE to explicit textual timestamp alignment for more precise temporal grounding. Under comparable token budgets and latency constraints, Qwen3-VL achieves superior performance in both dense and Mixture-of-Experts (MoE) architectures. We envision Qwen3-VL serving as a foundational engine for image-grounded reasoning, agentic decision-making, and multimodal code intelligence in real-world workflows.