Qwen2-VL: Mejorando la Percepción del Mundo del Modelo de Visión-Lenguaje a Cualquier Resolución
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
September 18, 2024
Autores: Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
cs.AI
Resumen
Presentamos la Serie Qwen2-VL, una actualización avanzada de los modelos anteriores Qwen-VL que redefine el enfoque convencional de resolución predeterminada en el procesamiento visual. Qwen2-VL introduce el mecanismo de Resolución Dinámica Ingenua, que permite al modelo procesar dinámicamente imágenes de diferentes resoluciones en distintos números de tokens visuales. Este enfoque permite al modelo generar representaciones visuales más eficientes y precisas, alineándose estrechamente con los procesos perceptivos humanos. El modelo también integra el Incrustado de Posición Rotativa Multimodal (M-RoPE), facilitando la fusión efectiva de información posicional entre texto, imágenes y videos. Empleamos un paradigma unificado para procesar tanto imágenes como videos, mejorando las capacidades de percepción visual del modelo. Para explorar el potencial de los grandes modelos multimodales, Qwen2-VL investiga las leyes de escala para los grandes modelos de visión-lenguaje (LVLMs). Al escalar tanto el tamaño del modelo, con versiones de 2B, 8B y 72B parámetros, como la cantidad de datos de entrenamiento, la Serie Qwen2-VL logra un rendimiento altamente competitivo. Destacadamente, el modelo Qwen2-VL-72B alcanza resultados comparables a modelos líderes como GPT-4o y Claude3.5-Sonnet en diversos puntos de referencia multimodales, superando a otros modelos generalistas. El código está disponible en https://github.com/QwenLM/Qwen2-VL.
English
We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL
models that redefines the conventional predetermined-resolution approach in
visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism,
which enables the model to dynamically process images of varying resolutions
into different numbers of visual tokens. This approach allows the model to
generate more efficient and accurate visual representations, closely aligning
with human perceptual processes. The model also integrates Multimodal Rotary
Position Embedding (M-RoPE), facilitating the effective fusion of positional
information across text, images, and videos. We employ a unified paradigm for
processing both images and videos, enhancing the model's visual perception
capabilities. To explore the potential of large multimodal models, Qwen2-VL
investigates the scaling laws for large vision-language models (LVLMs). By
scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the
amount of training data, the Qwen2-VL Series achieves highly competitive
performance. Notably, the Qwen2-VL-72B model achieves results comparable to
leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal
benchmarks, outperforming other generalist models. Code is available at
https://github.com/QwenLM/Qwen2-VL.Summary
AI-Generated Summary