InfiMM-HD: 高解像度マルチモーダル理解における飛躍的進歩
InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding
March 3, 2024
著者: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は近年、著しい進展を遂げています。しかしながら、高解像度画像内の複雑な詳細を正確に認識し理解するという課題は依然として残っています。堅牢なMLLMsの開発に不可欠であるにもかかわらず、この分野は十分に研究されていません。この課題に取り組むため、本研究ではInfiMM-HDを提案します。これは、異なる解像度の画像を低い計算コストで処理するために特別に設計された新しいアーキテクチャです。このイノベーションにより、MLLMsをより高解像度の能力に拡張することが可能になります。InfiMM-HDは、計算コストを削減するためにクロスアテンションモジュールとビジュアルウィンドウを組み込んでいます。このアーキテクチャ設計を4段階のトレーニングパイプラインと統合することで、我々のモデルは効率的かつコスト効果的に視覚的知覚を向上させます。実証研究は、InfiMM-HDの堅牢性と有効性を強調し、関連分野における新たな探求の道を開きます。コードとモデルはhttps://huggingface.co/Infi-MM/infimm-hdで公開されています。
English
Multimodal Large Language Models (MLLMs) have experienced significant
advancements recently. Nevertheless, challenges persist in the accurate
recognition and comprehension of intricate details within high-resolution
images. Despite being indispensable for the development of robust MLLMs, this
area remains underinvestigated. To tackle this challenge, our work introduces
InfiMM-HD, a novel architecture specifically designed for processing images of
different resolutions with low computational overhead. This innovation
facilitates the enlargement of MLLMs to higher-resolution capabilities.
InfiMM-HD incorporates a cross-attention module and visual windows to reduce
computation costs. By integrating this architectural design with a four-stage
training pipeline, our model attains improved visual perception efficiently and
cost-effectively. Empirical study underscores the robustness and effectiveness
of InfiMM-HD, opening new avenues for exploration in related areas. Codes and
models can be found at https://huggingface.co/Infi-MM/infimm-hd