DenseFusion-1M: 包括的なマルチモーダル知覚のための視覚エキスパートの統合
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception
July 11, 2024
著者: Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan
cs.AI
要旨
既存のマルチモーダル大規模言語モデル(MLLM)は、複数のオブジェクト、テキスト情報、空間関係を含む様々な視覚要素の複雑な理解をますます重視しています。これらのモデルの包括的な視覚知覚の開発は、多様な視覚要素と詳細な画像記述を提供する高品質な画像-テキストデータセットの可用性にかかっています。しかし、現在、そのような超詳細なデータセットの不足がMLLMコミュニティの進展を妨げています。このボトルネックは、完全かつ正確なアノテーションを提供するのに不足している現在のキャプションエンジンの限られた知覚能力に起因しています。包括的な視覚知覚に関するMLLMの最先端研究を促進するために、我々は低予算でありながら非常に効果的なキャプションエンジンを使用して完全かつ正確な画像記述を提供する「Perceptual Fusion」を提案します。具体的には、Perceptual Fusionは、視覚要素に関する明示的な情報を提供するために多様な知覚エキスパートを画像事前分布として統合し、高度なMLLMの知覚能力を模倣するために効率的なMLLMを中心的な軸として採用します。我々は、未整理のLAIONデータセットから100万枚の代表的な画像を慎重に選択し、DenseFusion-1Mと名付けたエンジンを使用して密な記述を生成します。広範な実験により、我々のエンジンが他のエンジンを上回り、その結果得られたデータセットが既存のMLLMの知覚および認知能力を多様な視覚-言語ベンチマークで大幅に向上させることが検証されました。特に高解像度画像を入力とした場合に顕著な改善が見られました。データセットとコードはhttps://github.com/baaivision/DenseFusionで公開されています。
English
Existing Multimodal Large Language Models (MLLMs) increasingly emphasize
complex understanding of various visual elements, including multiple objects,
text information, and spatial relations. Their development for comprehensive
visual perception hinges on the availability of high-quality image-text
datasets that offer diverse visual elements and throughout image descriptions.
However, the scarcity of such hyper-detailed datasets currently hinders
progress within the MLLM community. The bottleneck stems from the limited
perceptual capabilities of current caption engines, which fall short in
providing complete and accurate annotations. To facilitate the cutting-edge
research of MLLMs on comprehensive vision perception, we thereby propose
Perceptual Fusion, using a low-budget but highly effective caption engine for
complete and accurate image descriptions. Specifically, Perceptual Fusion
integrates diverse perception experts as image priors to provide explicit
information on visual elements and adopts an efficient MLLM as a centric pivot
to mimic advanced MLLMs' perception abilities. We carefully select 1M highly
representative images from uncurated LAION dataset and generate dense
descriptions using our engine, dubbed DenseFusion-1M. Extensive experiments
validate that our engine outperforms its counterparts, where the resulting
dataset significantly improves the perception and cognition abilities of
existing MLLMs across diverse vision-language benchmarks, especially with
high-resolution images as inputs. The dataset and code are publicly available
at https://github.com/baaivision/DenseFusion.Summary
AI-Generated Summary