Qwen2-VL: あらゆる解像度で世界の認識を向上させるビジョン言語モデル
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
September 18, 2024
著者: Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
cs.AI
要旨
私たちは、従来の決められた解像度アプローチを再定義する前のQwen-VLモデルの高度なアップグレードであるQwen2-VLシリーズを提案します。Qwen2-VLは、変動する解像度の画像を異なる数のビジュアルトークンに動的に処理するNaive Dynamic Resolutionメカニズムを導入しています。このアプローチにより、モデルはより効率的で正確なビジュアル表現を生成し、人間の知覚プロセスに密接に合致しています。モデルはまた、テキスト、画像、ビデオ間の位置情報の効果的な融合を容易にするMultimodal Rotary Position Embedding(M-RoPE)を統合しています。画像とビデオの両方を処理するための統一されたパラダイムを採用することで、モデルの視覚認識能力を向上させています。大規模なマルチモーダルモデルの可能性を探るために、Qwen2-VLは大規模なビジョン言語モデル(LVLMs)のスケーリング則を調査しています。モデルサイズ(2B、8B、72Bパラメータのバージョンを含む)とトレーニングデータ量の両方をスケーリングすることで、Qwen2-VLシリーズは非常に競争力のあるパフォーマンスを達成しています。特に、Qwen2-VL-72Bモデルは、GPT-4oやClaude3.5-Sonnetなどの主要モデルと比較して、さまざまなマルチモーダルベンチマークで類似の結果を達成し、他の汎用モデルを凌駕しています。コードはhttps://github.com/QwenLM/Qwen2-VLで入手可能です。
English
We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL
models that redefines the conventional predetermined-resolution approach in
visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism,
which enables the model to dynamically process images of varying resolutions
into different numbers of visual tokens. This approach allows the model to
generate more efficient and accurate visual representations, closely aligning
with human perceptual processes. The model also integrates Multimodal Rotary
Position Embedding (M-RoPE), facilitating the effective fusion of positional
information across text, images, and videos. We employ a unified paradigm for
processing both images and videos, enhancing the model's visual perception
capabilities. To explore the potential of large multimodal models, Qwen2-VL
investigates the scaling laws for large vision-language models (LVLMs). By
scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the
amount of training data, the Qwen2-VL Series achieves highly competitive
performance. Notably, the Qwen2-VL-72B model achieves results comparable to
leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal
benchmarks, outperforming other generalist models. Code is available at
https://github.com/QwenLM/Qwen2-VL.Summary
AI-Generated Summary