Qwen2-VL: Verbesserung der Wahrnehmung der Welt durch ein Vision-Language-Modell bei jeder Auflösung
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
September 18, 2024
Autoren: Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
cs.AI
Zusammenfassung
Wir präsentieren die Qwen2-VL-Serie, ein fortschrittliches Upgrade der vorherigen Qwen-VL-Modelle, das den konventionellen Ansatz mit vorbestimmter Auflösung in der visuellen Verarbeitung neu definiert. Qwen2-VL führt den Mechanismus der Naiven Dynamischen Auflösung ein, der es dem Modell ermöglicht, Bilder mit unterschiedlichen Auflösungen dynamisch in verschiedene Anzahlen von visuellen Tokens zu verarbeiten. Dieser Ansatz ermöglicht es dem Modell, effizientere und genauere visuelle Repräsentationen zu generieren, die eng an menschliche Wahrnehmungsprozesse angelehnt sind. Das Modell integriert auch Multimodale Rotationspositions-Einbettung (M-RoPE), was die effektive Fusion von Positionsinformationen über Texte, Bilder und Videos erleichtert. Wir verwenden ein einheitliches Paradigma zur Verarbeitung von Bildern und Videos, um die visuellen Wahrnehmungsfähigkeiten des Modells zu verbessern. Um das Potenzial großer multimodaler Modelle zu erforschen, untersucht Qwen2-VL die Skalierungsgesetze für große Bildsprachmodelle (LVLMs). Durch Skalierung sowohl der Modellgröße – mit Versionen von 2B, 8B und 72B Parametern – als auch der Menge an Trainingsdaten erzielt die Qwen2-VL-Serie eine äußerst wettbewerbsfähige Leistung. Beachtenswert ist, dass das Qwen2-VL-72B-Modell Ergebnisse erzielt, die mit führenden Modellen wie GPT-4o und Claude3.5-Sonnet bei verschiedenen multimodalen Benchmarks vergleichbar sind und andere Generalistenmodelle übertreffen. Der Code ist verfügbar unter https://github.com/QwenLM/Qwen2-VL.
English
We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL
models that redefines the conventional predetermined-resolution approach in
visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism,
which enables the model to dynamically process images of varying resolutions
into different numbers of visual tokens. This approach allows the model to
generate more efficient and accurate visual representations, closely aligning
with human perceptual processes. The model also integrates Multimodal Rotary
Position Embedding (M-RoPE), facilitating the effective fusion of positional
information across text, images, and videos. We employ a unified paradigm for
processing both images and videos, enhancing the model's visual perception
capabilities. To explore the potential of large multimodal models, Qwen2-VL
investigates the scaling laws for large vision-language models (LVLMs). By
scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the
amount of training data, the Qwen2-VL Series achieves highly competitive
performance. Notably, the Qwen2-VL-72B model achieves results comparable to
leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal
benchmarks, outperforming other generalist models. Code is available at
https://github.com/QwenLM/Qwen2-VL.Summary
AI-Generated Summary