CompCap: 複合キャプションを用いたマルチモーダル大規模言語モデルの改善
CompCap: Improving Multimodal Large Language Models with Composite Captions
December 6, 2024
著者: Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He
cs.AI
要旨
Multimodal Large Language Models (MLLMs)は、合成画像をどれだけ理解できるか?合成画像(CIs)は、複数の視覚要素(チャート、ポスター、スクリーンショットなど)を組み合わせて作成された合成ビジュアルであり、直接カメラで撮影されたものではありません。CIsは実世界のアプリケーションで一般的ですが、最近のMLLMの開発は主に自然画像(NIs)の解釈に焦点を当ててきました。私たちの研究によれば、現在のMLLMはCIsを正確に理解する上で重要な課題に直面しており、これらの画像から情報を抽出したり複雑な推論を行ったりすることが難しいことがよくあります。CIsの既存のトレーニングデータは、主に質問回答タスク向けにフォーマットされており(例:ChartQAやScienceQAなどのデータセット)、頑健なビジョン言語アライメントのために重要な高品質の画像キャプションデータセットは、NIsにのみ利用可能です。このギャップを埋めるために、私たちはComposite Captions(CompCap)を導入します。これは、Large Language Models(LLMs)と自動化ツールを活用して、正確で詳細なキャプションを持つCIsを合成する柔軟なフレームワークです。CompCapを使用して、6つのCIタイプを含む118Kの画像キャプションペアを収録したデータセットCompCap-118Kを編纂します。CompCap-118Kの効果を検証するために、3つのサイズのMLLM(xGen-MM-inst.-4B、LLaVA-NeXT-Vicuna-7B/13B)を教師ありファインチューニングします。経験的結果は、CompCap-118KがCIsの理解を大幅に向上させ、それぞれ11のベンチマークで平均的な利得が1.7%、2.0%、および2.9%向上することを示しています。
English
How well can Multimodal Large Language Models (MLLMs) understand composite
images? Composite images (CIs) are synthetic visuals created by merging
multiple visual elements, such as charts, posters, or screenshots, rather than
being captured directly by a camera. While CIs are prevalent in real-world
applications, recent MLLM developments have primarily focused on interpreting
natural images (NIs). Our research reveals that current MLLMs face significant
challenges in accurately understanding CIs, often struggling to extract
information or perform complex reasoning based on these images. We find that
existing training data for CIs are mostly formatted for question-answer tasks
(e.g., in datasets like ChartQA and ScienceQA), while high-quality
image-caption datasets, critical for robust vision-language alignment, are only
available for NIs. To bridge this gap, we introduce Composite Captions
(CompCap), a flexible framework that leverages Large Language Models (LLMs) and
automation tools to synthesize CIs with accurate and detailed captions. Using
CompCap, we curate CompCap-118K, a dataset containing 118K image-caption pairs
across six CI types. We validate the effectiveness of CompCap-118K by
supervised fine-tuning MLLMs of three sizes: xGen-MM-inst.-4B and
LLaVA-NeXT-Vicuna-7B/13B. Empirical results show that CompCap-118K
significantly enhances MLLMs' understanding of CIs, yielding average gains of
1.7%, 2.0%, and 2.9% across eleven benchmarks, respectively.Summary
AI-Generated Summary