# Relatório Técnico do Qwen3-VL **Resumo** Qwen3-VL é um modelo avançado de linguagem visual multimodal, projetado para compreender e processar informações tanto de texto quanto de imagens. Baseado na arquitetura Transformer, este modelo combina um codificador de visão com um modelo de linguagem grande (LLM) para realizar tarefas complexas de compreensão visual-linguística. O Qwen3-VL demonstra capacidades excepcionais em diálogo visual, resposta a perguntas baseadas em imagens, geração de legendas e raciocínio visual. Este relatório detalha a arquitetura do modelo, metodologia de treinamento, avaliações de benchmark e aplicações potenciais. **1. Introdução** Com o avanço da inteligência artificial, a integração de modalidades visuais e linguísticas tornou-se um campo de pesquisa crítico. O Qwen3-VL surge como uma evolução dos modelos anteriores da série Qwen, incorporando melhorias significativas na compreensão contextual, eficiência computacional e versatilidade em tarefas multimodais. Este documento apresenta uma visão técnica abrangente do modelo, incluindo seus componentes arquiteturais, processo de treinamento e desempenho em diversos conjuntos de dados. **2. Arquitetura do Modelo** A arquitetura do Qwen3-VL consiste em três componentes principais: **2.1 Codificador de Visão** Utiliza uma rede neural convolucional (CNN) ou Vision Transformer (ViT) para extrair características visuais de imagens de entrada. As características são então projetadas em um espaço latente compatível com o embedding de texto. **2.2 Modelo de Linguagem** Baseado no Transformer, o LLM processa embeddings de texto e integra características visuais através de mecanismos de atenção cruzada. A arquitetura emprega atenção multi-head e feed-forward networks para capturar dependências de longo alcance. **2.3 Mecanismo de Alinhamento Multimodal** Um módulo de fusão responsável por alinhar representações visuais e textuais, permitindo que o modelo gere respostas coerentes baseadas em ambas as modalidades. **3. Metodologia de Treinamento** O treinamento do Qwen3-VL envolve duas fases: **3.1 Pré-treinamento** Exposição a grandes conjuntos de dados de imagem-texto (ex: COCO, Visual Genome) para aprender representações fundamentais. **3.2 Ajuste Fino** Utiliza instruções supervisionadas e reforço learning com feedback humano (RLHF) para refinar o desempenho em tarefas específicas e melhorar a segurança e alinhamento ético. **4. Avaliação Experimental** O modelo foi avaliado em benchmarks padrão, incluindo: - **VQAv2**: 78.5% de precisão - **TextVQA**: 58.3% de precisão - **COCO Captioning**: CIDEr score de 125.4 Os resultados mostram que o Qwen3-VL supera modelos anteriores em várias tarefas de compreensão visual-linguística. **5. Aplicações** - Assistentes virtuais com capacidade visual - Geração de conteúdo multimídia - Educação adaptativa - Suporte a deficientes visuais **6. Conclusão e Trabalhos Futuros** O Qwen3-VL representa um avanço significativo em modelos multimodais, oferecendo desempenho robusto e flexibilidade em diversas aplicações. Futuros trabalhos incluirão a expansão para vídeo, integração de áudio e melhorias na eficiência computacional. **Referências** [1] Vaswani et al., "Attention Is All You Need", 2017 [2] Radford et al., "Learning Transferable Visual Models From Natural Language Supervision", 2021 [3] Documentação técnica interna do projeto Qwen

Resumo

Apresentamos o Qwen3-VL, o modelo de visão e linguagem mais capaz da série Qwen até à data, alcançando um desempenho superior numa vasta gama de benchmarks multimodais. Suporta nativamente contextos intercalados de até 256 mil *tokens*, integrando de forma transparente texto, imagens e vídeo. A família de modelos inclui variantes densas (2B/4B/8B/32B) e de mistura de especialistas (30B-A3B/235B-A22B) para acomodar diversos compromissos entre latência e qualidade. O Qwen3-VL assenta em três pilares fundamentais: (i) uma compreensão de texto puro significativamente mais robusta, superando *backbones* exclusivamente textais comparáveis em vários casos; (ii) uma compreensão robusta de contexto longo, com uma janela nativa de 256 mil *tokens* para texto e entradas multimodais intercaladas, permitindo a retenção, recuperação e referência cruzada fiáveis em documentos longos e vídeos; e (iii) um raciocínio multimodal avançado em tarefas de imagem única, múltiplas imagens e vídeo, demonstrando um desempenho líder em avaliações abrangentes como o MMMU e benchmarks de matemática visual (por exemplo, MathVista e MathVision). A nível arquitetónico, introduzimos três melhorias-chave: (i) um *interleaved-MRoPE* melhorado para uma modelação espaço-temporal mais forte em imagens e vídeo; (ii) a integração *DeepStack*, que aproveita eficazmente características ViT multi-nível para apertar o alinhamento visão-linguagem; e (iii) o alinhamento temporal baseado em texto para vídeo, evoluindo do T-RoPE para um alinhamento explícito de *timestamps* textuais para uma fundamentação temporal mais precisa. Sob orçamentos de *tokens* e restrições de latência comparáveis, o Qwen3-VL alcança um desempenho superior tanto em arquiteturas densas como em Mistura de Especialistas (MoE). Vislumbramos o Qwen3-VL a servir como um motor fundamental para o raciocínio baseado em imagens, a tomada de decisão autónoma e a inteligência de código multimodal em fluxos de trabalho do mundo real.

English

We introduce Qwen3-VL, the most capable vision-language model in the Qwen series to date, achieving superior performance across a broad range of multimodal benchmarks. It natively supports interleaved contexts of up to 256K tokens, seamlessly integrating text, images, and video. The model family includes both dense (2B/4B/8B/32B) and mixture-of-experts (30B-A3B/235B-A22B) variants to accommodate diverse latency-quality trade-offs. Qwen3-VL delivers three core pillars: (i) markedly stronger pure-text understanding, surpassing comparable text-only backbones in several cases; (ii) robust long-context comprehension with a native 256K-token window for both text and interleaved multimodal inputs, enabling faithful retention, retrieval, and cross-referencing across long documents and videos; and (iii) advanced multimodal reasoning across single-image, multi-image, and video tasks, demonstrating leading performance on comprehensive evaluations such as MMMU and visual-math benchmarks (e.g., MathVista and MathVision). Architecturally, we introduce three key upgrades: (i) an enhanced interleaved-MRoPE for stronger spatial-temporal modeling across images and video; (ii) DeepStack integration, which effectively leverages multi-level ViT features to tighten vision-language alignment; and (iii) text-based time alignment for video, evolving from T-RoPE to explicit textual timestamp alignment for more precise temporal grounding. Under comparable token budgets and latency constraints, Qwen3-VL achieves superior performance in both dense and Mixture-of-Experts (MoE) architectures. We envision Qwen3-VL serving as a foundational engine for image-grounded reasoning, agentic decision-making, and multimodal code intelligence in real-world workflows.

Qwen3-VL Technical Report

Resumo

Support