Relatório Técnico do Qwen2.5-VLQwen2.5-VL Technical Report
Apresentamos o Qwen2.5-VL, o mais recente modelo carro-chefe da série de visão e linguagem Qwen, que demonstra avanços significativos tanto em capacidades fundamentais quanto em funcionalidades inovadoras. O Qwen2.5-VL dá um grande salto na compreensão e interação com o mundo por meio de reconhecimento visual aprimorado, localização precisa de objetos, análise robusta de documentos e compreensão de vídeos longos. Um destaque do Qwen2.5-VL é sua capacidade de localizar objetos com precisão usando caixas delimitadoras ou pontos. Ele oferece extração robusta de dados estruturados de faturas, formulários e tabelas, além de análise detalhada de gráficos, diagramas e layouts. Para lidar com entradas complexas, o Qwen2.5-VL introduz processamento de resolução dinâmica e codificação de tempo absoluto, permitindo que ele processe imagens de tamanhos variados e vídeos de longa duração (até horas) com localização de eventos em nível de segundo. Isso permite que o modelo perceba nativamente escalas espaciais e dinâmicas temporais sem depender de técnicas tradicionais de normalização. Ao treinar um Vision Transformer (ViT) de resolução dinâmica nativa desde o início e incorporar Window Attention, reduzimos a sobrecarga computacional enquanto mantemos a resolução nativa. Como resultado, o Qwen2.5-VL se destaca não apenas na compreensão de imagens estáticas e documentos, mas também como um agente visual interativo capaz de raciocinar, usar ferramentas e executar tarefas em cenários do mundo real, como operar computadores e dispositivos móveis. O Qwen2.5-VL está disponível em três tamanhos, atendendo a diversos casos de uso, desde IA de borda até computação de alto desempenho. O modelo carro-chefe Qwen2.5-VL-72B equipara-se a modelos de ponta como GPT-4o e Claude 3.5 Sonnet, destacando-se especialmente na compreensão de documentos e diagramas. Além disso, o Qwen2.5-VL mantém um desempenho linguístico robusto, preservando as competências centrais de linguagem do Qwen2.5 LLM.