ChatPaper.aiChatPaper

Qwen2-VL: Melhorando a Percepção do Modelo de Visão e Linguagem do Mundo em Qualquer Resolução

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

September 18, 2024
Autores: Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
cs.AI

Resumo

Apresentamos a Série Qwen2-VL, uma atualização avançada dos modelos anteriores Qwen-VL que redefine a abordagem convencional de resolução predeterminada no processamento visual. O Qwen2-VL introduz o mecanismo de Resolução Dinâmica Ingênua, que permite ao modelo processar dinamicamente imagens de diferentes resoluções em números variados de tokens visuais. Essa abordagem permite que o modelo gere representações visuais mais eficientes e precisas, alinhando-se de perto com os processos perceptuais humanos. O modelo também integra o Embedding de Posição Rotativa Multimodal (M-RoPE), facilitando a fusão eficaz de informações posicionais em texto, imagens e vídeos. Empregamos um paradigma unificado para processar tanto imagens quanto vídeos, aprimorando as capacidades de percepção visual do modelo. Para explorar o potencial de grandes modelos multimodais, o Qwen2-VL investiga as leis de escalonamento para grandes modelos de visão-linguagem (LVLMs). Ao escalar tanto o tamanho do modelo - com versões de 2B, 8B e 72B parâmetros - quanto a quantidade de dados de treinamento, a Série Qwen2-VL alcança um desempenho altamente competitivo. Notavelmente, o modelo Qwen2-VL-72B alcança resultados comparáveis aos principais modelos como GPT-4o e Claude3.5-Sonnet em diversos benchmarks multimodais, superando outros modelos generalistas. O código está disponível em https://github.com/QwenLM/Qwen2-VL.
English
We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images of varying resolutions into different numbers of visual tokens. This approach allows the model to generate more efficient and accurate visual representations, closely aligning with human perceptual processes. The model also integrates Multimodal Rotary Position Embedding (M-RoPE), facilitating the effective fusion of positional information across text, images, and videos. We employ a unified paradigm for processing both images and videos, enhancing the model's visual perception capabilities. To explore the potential of large multimodal models, Qwen2-VL investigates the scaling laws for large vision-language models (LVLMs). By scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the amount of training data, the Qwen2-VL Series achieves highly competitive performance. Notably, the Qwen2-VL-72B model achieves results comparable to leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal benchmarks, outperforming other generalist models. Code is available at https://github.com/QwenLM/Qwen2-VL.

Summary

AI-Generated Summary

PDF784November 16, 2024