Qwen2-VL: Het verbeteren van het perceptievermogen van het Vision-Language Model van de wereld op elke resolutie
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
September 18, 2024
Auteurs: Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
cs.AI
Samenvatting
Wij presenteren de Qwen2-VL Serie, een geavanceerde upgrade van de vorige Qwen-VL modellen die de conventionele vooraf bepaalde resolutiebenadering bij visuele verwerking herdefinieert. Qwen2-VL introduceert het Naïeve Dynamische Resolutie mechanisme, waarmee het model dynamisch afbeeldingen van verschillende resoluties kan verwerken tot verschillende aantallen visuele tokens. Deze benadering stelt het model in staat om efficiëntere en nauwkeurigere visuele representaties te genereren, die nauw aansluiten bij menselijke perceptuele processen. Het model integreert ook Multimodale Rotatie Positie Insluiting (M-RoPE), wat de effectieve fusie van positionele informatie over tekst, afbeeldingen en video's mogelijk maakt. We hanteren een uniforme aanpak voor het verwerken van zowel afbeeldingen als video's, waardoor de visuele waarnemingsmogelijkheden van het model worden verbeterd. Om het potentieel van grote multimodale modellen te verkennen, onderzoekt Qwen2-VL de schalingswetten voor grote visie-taalmodellen (LVLM's). Door zowel de modelgrootte - met versies van 2B, 8B en 72B parameters - als de hoeveelheid trainingsdata te schalen, behaalt de Qwen2-VL Serie zeer competitieve prestaties. Opmerkelijk genoeg behaalt het Qwen2-VL-72B model resultaten die vergelijkbaar zijn met toonaangevende modellen zoals GPT-4o en Claude3.5-Sonnet op verschillende multimodale benchmarks, waarbij het andere generalistische modellen overtreft. De code is beschikbaar op https://github.com/QwenLM/Qwen2-VL.
English
We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL
models that redefines the conventional predetermined-resolution approach in
visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism,
which enables the model to dynamically process images of varying resolutions
into different numbers of visual tokens. This approach allows the model to
generate more efficient and accurate visual representations, closely aligning
with human perceptual processes. The model also integrates Multimodal Rotary
Position Embedding (M-RoPE), facilitating the effective fusion of positional
information across text, images, and videos. We employ a unified paradigm for
processing both images and videos, enhancing the model's visual perception
capabilities. To explore the potential of large multimodal models, Qwen2-VL
investigates the scaling laws for large vision-language models (LVLMs). By
scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the
amount of training data, the Qwen2-VL Series achieves highly competitive
performance. Notably, the Qwen2-VL-72B model achieves results comparable to
leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal
benchmarks, outperforming other generalist models. Code is available at
https://github.com/QwenLM/Qwen2-VL.Summary
AI-Generated Summary