PyramidDrop: ピラミッドを介した大規模ビジョン言語モデルの加速化による視覚冗長性削減PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid
Visual Redundancy Reduction
大規模なビジョン言語モデル(LVLM)では、画像は情報を豊富に持つ入力として機能します。ことわざ「一枚の絵は千語に値する」が示すように、現在のLVLMでは1枚の画像を表現するのに数百から数千のトークンが必要となることがあります。これにより、入力画像の解像度が高くなるにつれて計算コストが二乗的に増加し、それによってトレーニングと推論の効率に深刻な影響を与えます。これまでのアプローチでは、LVLMの初期レイヤーの前または内部で画像トークンの数を減らすことを試みてきました。しかし、これらの戦略は避けられなく重要な画像情報の損失をもたらし、結果としてモデルの性能を低下させます。この課題に対処するため、浅いレイヤーにおいてLVLMにとってすべての視覚トークンが必要であり、モデルの深いレイヤーにおいてトークンの冗長性が徐々に増加することを示す経験的研究を行います。このため、我々はLVLMの効率を向上させるための視覚冗長性削減戦略であるPyramidDropを提案します。具体的には、LVLMを複数の段階に分割し、各段階の最後で事前に定義された比率で一部の画像トークンを削除し、モデルの各層にわたってピラミッド状の視覚トークンを作成します。削除は、無視できる時間オーバーヘッドを持つ軽量な類似性計算に基づいて行われます。幅広い実験により、PyramidDropは、同等の性能を維持しつつ、LLaVA-NeXTのトレーニング時間を40%、推論FLOPsを55%加速できることが示されました。さらに、PyramidDropは、トレーニングなしで推論を加速するプラグアンドプレイ戦略としても機能し、競合する手法よりも優れた性能と低い推論コストを提供します。PyramidDropによって導入された洞察とアプローチが、将来の研究がLVLMにおける画像トークンの役割をさらに探求するためのインスピレーションとなることを期待しています。