# Informe Técnico de Qwen3-VL
Qwen3-VL Technical Report
November 26, 2025
Autores: Shuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen, Xionghui Chen, Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo, Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li, Kaixin Li, Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu, Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang, Yuxuan Wang, Tianbao Xie, Yiheng Xu, Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou, Yuanzhi Zhu, Ke Zhu
cs.AI
Resumen
Presentamos Qwen3-VL, el modelo de visión y lenguaje más capaz de la serie Qwen hasta la fecha, que logra un rendimiento superior en una amplia gama de benchmarks multimodales. Soporta nativamente contextos entrelazados de hasta 256K tokens, integrando perfectamente texto, imágenes y video. La familia de modelos incluye variantes densas (2B/4B/8B/32B) y de mezcla de expertos (30B-A3B/235B-A22B) para adaptarse a diversas compensaciones entre latencia y calidad. Qwen3-VL ofrece tres pilares fundamentales: (i) una comprensión de texto puro notablemente más sólida, superando a arquitecturas especializadas solo en texto en varios casos; (ii) una comprensión robusta de contextos largos con una ventana nativa de 256K tokens tanto para texto como para entradas multimodales entrelazadas, permitiendo la retención, recuperación y referencia cruzada fiel a lo largo de documentos largos y videos; y (iii) un razonamiento multimodal avanzado en tareas de imagen única, múltiples imágenes y video, demostrando un rendimiento líder en evaluaciones integrales como MMMU y benchmarks de matemáticas visuales (por ejemplo, MathVista y MathVision). Arquitectónicamente, introducimos tres mejoras clave: (i) un MRoPE entrelazado mejorado para un modelado espacio-temporal más fuerte en imágenes y video; (ii) la integración de DeepStack, que aprovecha eficazmente las características ViT multinivel para reforzar la alineación visión-lenguaje; y (iii) la alineación temporal basada en texto para video, evolucionando desde T-RoPE hacia una alineación explícita de marcas de tiempo textuales para una localización temporal más precisa. Con presupuestos de tokens y restricciones de latencia comparables, Qwen3-VL logra un rendimiento superior tanto en arquitecturas densas como de Mezcla de Expertos (MoE). Prevemos que Qwen3-VL sirva como un motor fundamental para el razonamiento basado en imágenes, la toma de decisiones agentiva y la inteligencia de código multimodal en flujos de trabajo del mundo real.
English
We introduce Qwen3-VL, the most capable vision-language model in the Qwen series to date, achieving superior performance across a broad range of multimodal benchmarks. It natively supports interleaved contexts of up to 256K tokens, seamlessly integrating text, images, and video. The model family includes both dense (2B/4B/8B/32B) and mixture-of-experts (30B-A3B/235B-A22B) variants to accommodate diverse latency-quality trade-offs. Qwen3-VL delivers three core pillars: (i) markedly stronger pure-text understanding, surpassing comparable text-only backbones in several cases; (ii) robust long-context comprehension with a native 256K-token window for both text and interleaved multimodal inputs, enabling faithful retention, retrieval, and cross-referencing across long documents and videos; and (iii) advanced multimodal reasoning across single-image, multi-image, and video tasks, demonstrating leading performance on comprehensive evaluations such as MMMU and visual-math benchmarks (e.g., MathVista and MathVision). Architecturally, we introduce three key upgrades: (i) an enhanced interleaved-MRoPE for stronger spatial-temporal modeling across images and video; (ii) DeepStack integration, which effectively leverages multi-level ViT features to tighten vision-language alignment; and (iii) text-based time alignment for video, evolving from T-RoPE to explicit textual timestamp alignment for more precise temporal grounding. Under comparable token budgets and latency constraints, Qwen3-VL achieves superior performance in both dense and Mixture-of-Experts (MoE) architectures. We envision Qwen3-VL serving as a foundational engine for image-grounded reasoning, agentic decision-making, and multimodal code intelligence in real-world workflows.