Relatório Técnico do Qwen2.5-VL
Qwen2.5-VL Technical Report
February 19, 2025
Autores: Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin
cs.AI
Resumo
Apresentamos o Qwen2.5-VL, o mais recente modelo carro-chefe da série de visão e linguagem Qwen, que demonstra avanços significativos tanto em capacidades fundamentais quanto em funcionalidades inovadoras. O Qwen2.5-VL dá um grande salto na compreensão e interação com o mundo por meio de reconhecimento visual aprimorado, localização precisa de objetos, análise robusta de documentos e compreensão de vídeos longos. Um destaque do Qwen2.5-VL é sua capacidade de localizar objetos com precisão usando caixas delimitadoras ou pontos. Ele oferece extração robusta de dados estruturados de faturas, formulários e tabelas, além de análise detalhada de gráficos, diagramas e layouts. Para lidar com entradas complexas, o Qwen2.5-VL introduz processamento de resolução dinâmica e codificação de tempo absoluto, permitindo que ele processe imagens de tamanhos variados e vídeos de longa duração (até horas) com localização de eventos em nível de segundo. Isso permite que o modelo perceba nativamente escalas espaciais e dinâmicas temporais sem depender de técnicas tradicionais de normalização. Ao treinar um Vision Transformer (ViT) de resolução dinâmica nativa desde o início e incorporar Window Attention, reduzimos a sobrecarga computacional enquanto mantemos a resolução nativa. Como resultado, o Qwen2.5-VL se destaca não apenas na compreensão de imagens estáticas e documentos, mas também como um agente visual interativo capaz de raciocinar, usar ferramentas e executar tarefas em cenários do mundo real, como operar computadores e dispositivos móveis. O Qwen2.5-VL está disponível em três tamanhos, atendendo a diversos casos de uso, desde IA de borda até computação de alto desempenho. O modelo carro-chefe Qwen2.5-VL-72B equipara-se a modelos de ponta como GPT-4o e Claude 3.5 Sonnet, destacando-se especialmente na compreensão de documentos e diagramas. Além disso, o Qwen2.5-VL mantém um desempenho linguístico robusto, preservando as competências centrais de linguagem do Qwen2.5 LLM.
English
We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language
series, which demonstrates significant advancements in both foundational
capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap
forward in understanding and interacting with the world through enhanced visual
recognition, precise object localization, robust document parsing, and
long-video comprehension. A standout feature of Qwen2.5-VL is its ability to
localize objects using bounding boxes or points accurately. It provides robust
structured data extraction from invoices, forms, and tables, as well as
detailed analysis of charts, diagrams, and layouts. To handle complex inputs,
Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding,
enabling it to process images of varying sizes and videos of extended durations
(up to hours) with second-level event localization. This allows the model to
natively perceive spatial scales and temporal dynamics without relying on
traditional normalization techniques. By training a native dynamic-resolution
Vision Transformer (ViT) from scratch and incorporating Window Attention, we
reduce computational overhead while maintaining native resolution. As a result,
Qwen2.5-VL excels not only in static image and document understanding but also
as an interactive visual agent capable of reasoning, tool usage, and task
execution in real-world scenarios such as operating computers and mobile
devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases
from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model
matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly
excelling in document and diagram understanding. Additionally, Qwen2.5-VL
maintains robust linguistic performance, preserving the core language
competencies of the Qwen2.5 LLM.Summary
AI-Generated Summary