ChatPaper.aiChatPaper

マルチモーダルな大規模言語モデルのための多粒度概念アノテーションの探索

Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

December 8, 2024
著者: Xiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)は、ビジョン-言語タスクにおいて、粗い概念アノテーション(例:画像キャプション)のみを用いて事前学習することで優れた性能を発揮します。私たちは、細かい概念アノテーション(例:オブジェクトラベルやオブジェクト領域)を統合することで性能がさらに向上すると仮説立てています。なぜなら、両方のデータ粒度が概念表現の幅と深さにおいて互い補完するからです。私たちは、MLLMs向けのマルチモーダル多粒度概念アノテーション(MMGiC)を特集した新しいデータセットを紹介します。MMGiCの構築において、異なるデータレシピがマルチモーダル理解と生成に与える影響を探求します。私たちの分析により、多粒度概念アノテーションが、構造化されたテンプレートと一般的なMLLMフレームワークの下で統合し、互いを補完することが明らかになりました。MMGiCがMLLMsが概念をより適切に特定し学習するのを支援する潜在能力を明確に探求し、示しています。また、POPEやSEED-Benchなど12のマルチモーダル理解と生成のベンチマークにおいて、MMGiCと画像キャプションデータの公平な比較と効果的な協力を調査し、適切な組み合わせにより、POPEとSEED-Benchでそれぞれ画像キャプションデータ単体よりも3.95%と2.34%の絶対的な改善が実現されることを検証します。コード、データ、モデルはhttps://github.com/LooperXX/MMGiCで入手可能です。
English
Multimodal Large Language Models (MLLMs) excel in vision--language tasks by pre-training solely on coarse-grained concept annotations (e.g., image captions). We hypothesize that integrating fine-grained concept annotations (e.g., object labels and object regions) will further improve performance, as both data granularities complement each other in terms of breadth and depth in concept representation. We introduce a new dataset featuring Multimodal Multi-Grained Concept annotations (MMGiC) for MLLMs. In constructing MMGiC, we explore the impact of different data recipes on multimodal comprehension and generation. Our analyses reveal that multi-grained concept annotations integrate and complement each other, under our structured template and a general MLLM framework. We clearly explore and demonstrate the potential of MMGiC to help MLLMs better locate and learn concepts, aligning vision and language at multiple granularities. We further validate our hypothesis by investigating the fair comparison and effective collaboration between MMGiC and image--caption data on 12 multimodal comprehension and generation benchmarks, e.g., their appropriate combination achieve 3.95% and 2.34% absolute improvements over image--caption data alone on POPE and SEED-Bench. Code, data and models will be available at https://github.com/LooperXX/MMGiC.
PDF162December 10, 2024