LLaVA-HDを超えて:高解像度大規模マルチモーダルモデルへの探求
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
June 12, 2024
著者: Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin
cs.AI
要旨
高解像度で明確に見ることは、大規模マルチモーダルモデル(LMM)の基盤であり、視覚的知覚と推論において極めて重要であることが証明されています。既存の研究では通常、単純な解像度アップスケーリング手法が採用されており、画像はグローバルブランチとローカルブランチで構成され、後者はスライスされた画像パッチですが、前者と同じ解像度にリサイズされます。これは、より高い解像度を実現するためにはより多くのローカルパッチが必要となり、過剰な計算コストが発生することを意味します。同時に、ローカル画像トークンの優位性がグローバルコンテキストを弱める可能性があります。本論文では、これらの問題に深く掘り下げ、新しいフレームワークと詳細な最適化戦略を提案します。具体的には、異なるアダプターが異なるタスクに優れているという観察に基づき、アダプターの混合を使用してグローバルビューからコンテキスト情報を抽出します。ローカルパッチに関しては、学習可能なクエリ埋め込みを導入して画像トークンを削減し、ユーザーの質問に最も関連する重要なトークンが類似性ベースのセレクターによってさらに選択されます。我々の実験結果は、「少ないほど良い」というパターンを示しており、より少ないがより情報量の多いローカル画像トークンを使用することで性能が向上することが明らかになりました。また、グローバルマイニングブロックとローカル圧縮ブロックを同時にエンドツーエンドでトレーニングしても最適な結果が得られないという重要な課題があります。そこで、グローバルとローカルの両方の側面をバランスよく学習するために、交互トレーニング方式を提唱します。最後に、画像の詳細に対する高い要求を満たす挑戦的なデータセットを導入し、ローカル圧縮層のトレーニングを強化します。提案手法は、Sophisticated Tasks、Local image compression、Mixture of global Expertsを組み合わせたSliME(SliME)と名付けられ、わずか200万のトレーニングデータでさまざまなベンチマークにおいてリーダー性能を達成しました。
English
Seeing clearly with high resolution is a foundation of Large Multimodal
Models (LMMs), which has been proven to be vital for visual perception and
reasoning. Existing works usually employ a straightforward resolution upscaling
method, where the image consists of global and local branches, with the latter
being the sliced image patches but resized to the same resolution as the
former. This means that higher resolution requires more local patches,
resulting in exorbitant computational expenses, and meanwhile, the dominance of
local image tokens may diminish the global context. In this paper, we dive into
the problems and propose a new framework as well as an elaborate optimization
strategy. Specifically, we extract contextual information from the global view
using a mixture of adapters, based on the observation that different adapters
excel at different tasks. With regard to local patches, learnable query
embeddings are introduced to reduce image tokens, the most important tokens
accounting for the user question will be further selected by a similarity-based
selector. Our empirical results demonstrate a `less is more' pattern, where
utilizing fewer but more informative local image tokens leads to
improved performance. Besides, a significant challenge lies in the training
strategy, as simultaneous end-to-end training of the global mining block and
local compression block does not yield optimal results. We thus advocate for an
alternating training way, ensuring balanced learning between global and local
aspects. Finally, we also introduce a challenging dataset with high
requirements for image detail, enhancing the training of the local compression
layer. The proposed method, termed LMM with Sophisticated Tasks, Local image
compression, and Mixture of global Experts (SliME), achieves leading
performance across various benchmarks with only 2 million training data.Summary
AI-Generated Summary