CompCap: Улучшение мультимодальных больших языковых моделей с композитными подписями.
CompCap: Improving Multimodal Large Language Models with Composite Captions
December 6, 2024
Авторы: Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He
cs.AI
Аннотация
Насколько хорошо могут понимать мультимодальные модели языка большого размера (MLLM) композитные изображения? Композитные изображения (CIs) - это синтетические визуальные материалы, созданные путем объединения нескольких визуальных элементов, таких как диаграммы, постеры или скриншоты, а не захваченные непосредственно камерой. В то время как CIs широко распространены в прикладных областях, недавние достижения в области MLLM в основном сосредоточены на интерпретации естественных изображений (NIs). Наше исследование показывает, что текущие MLLM сталкиваются с существенными трудностями в точном понимании CIs, часто испытывая затруднения с извлечением информации или выполнением сложного рассуждения на основе этих изображений. Мы обнаружили, что существующие обучающие данные для CIs в основном оформлены для задач вопрос-ответ (например, в наборах данных, таких как ChartQA и ScienceQA), в то время как высококачественные наборы данных изображений с подписями, критически важные для надежного выравнивания зрения и языка, доступны только для NIs. Для устранения этого разрыва мы представляем Composite Captions (CompCap), гибкую структуру, которая использует модели языка большого размера (LLMs) и средства автоматизации для синтеза CIs с точными и подробными подписями. Используя CompCap, мы составляем набор данных CompCap-118K, содержащий 118 тыс. пар изображение-подпись по шести типам CI. Мы проверяем эффективность CompCap-118K путем надзорного дообучения MLLM трех размеров: xGen-MM-inst.-4B и LLaVA-NeXT-Vicuna-7B/13B. Эмпирические результаты показывают, что CompCap-118K значительно улучшает понимание MLLM CIs, обеспечивая средний прирост на 1,7%, 2,0% и 2,9% по одиннадцати показателям соответственно.
English
How well can Multimodal Large Language Models (MLLMs) understand composite
images? Composite images (CIs) are synthetic visuals created by merging
multiple visual elements, such as charts, posters, or screenshots, rather than
being captured directly by a camera. While CIs are prevalent in real-world
applications, recent MLLM developments have primarily focused on interpreting
natural images (NIs). Our research reveals that current MLLMs face significant
challenges in accurately understanding CIs, often struggling to extract
information or perform complex reasoning based on these images. We find that
existing training data for CIs are mostly formatted for question-answer tasks
(e.g., in datasets like ChartQA and ScienceQA), while high-quality
image-caption datasets, critical for robust vision-language alignment, are only
available for NIs. To bridge this gap, we introduce Composite Captions
(CompCap), a flexible framework that leverages Large Language Models (LLMs) and
automation tools to synthesize CIs with accurate and detailed captions. Using
CompCap, we curate CompCap-118K, a dataset containing 118K image-caption pairs
across six CI types. We validate the effectiveness of CompCap-118K by
supervised fine-tuning MLLMs of three sizes: xGen-MM-inst.-4B and
LLaVA-NeXT-Vicuna-7B/13B. Empirical results show that CompCap-118K
significantly enhances MLLMs' understanding of CIs, yielding average gains of
1.7%, 2.0%, and 2.9% across eleven benchmarks, respectively.Summary
AI-Generated Summary