CompCap: Melhorando Modelos de Linguagem Multimodais de Grande Escala com Legendas Compostas
CompCap: Improving Multimodal Large Language Models with Composite Captions
December 6, 2024
Autores: Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He
cs.AI
Resumo
Quão bem os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) conseguem entender imagens compostas? Imagens compostas (CIs) são visuais sintéticos criados pela fusão de múltiplos elementos visuais, como gráficos, pôsteres ou capturas de tela, em vez de serem capturados diretamente por uma câmera. Enquanto as CIs são prevalentes em aplicações do mundo real, os desenvolvimentos recentes em MLLMs têm se concentrado principalmente na interpretação de imagens naturais (NIs). Nossa pesquisa revela que os MLLMs atuais enfrentam desafios significativos para entender com precisão as CIs, muitas vezes lutando para extrair informações ou realizar raciocínio complexo com base nessas imagens. Descobrimos que os dados de treinamento existentes para CIs são principalmente formatados para tarefas de pergunta-resposta (por exemplo, em conjuntos de dados como ChartQA e ScienceQA), enquanto conjuntos de dados de legendas de imagens de alta qualidade, essenciais para um alinhamento robusto entre visão e linguagem, estão disponíveis apenas para NIs. Para preencher essa lacuna, apresentamos Legendas Compostas (CompCap), um framework flexível que aproveita Modelos de Linguagem de Grande Escala (LLMs) e ferramentas de automação para sintetizar CIs com legendas precisas e detalhadas. Usando o CompCap, nós elaboramos o CompCap-118K, um conjunto de dados contendo 118 mil pares de imagens e legendas em seis tipos de CI. Validamos a eficácia do CompCap-118K por meio do ajuste fino supervisionado de MLLMs de três tamanhos: xGen-MM-inst.-4B e LLaVA-NeXT-Vicuna-7B/13B. Os resultados empíricos mostram que o CompCap-118K melhora significativamente a compreensão das CIs pelos MLLMs, resultando em ganhos médios de 1,7%, 2,0% e 2,9% em onze benchmarks, respectivamente.
English
How well can Multimodal Large Language Models (MLLMs) understand composite
images? Composite images (CIs) are synthetic visuals created by merging
multiple visual elements, such as charts, posters, or screenshots, rather than
being captured directly by a camera. While CIs are prevalent in real-world
applications, recent MLLM developments have primarily focused on interpreting
natural images (NIs). Our research reveals that current MLLMs face significant
challenges in accurately understanding CIs, often struggling to extract
information or perform complex reasoning based on these images. We find that
existing training data for CIs are mostly formatted for question-answer tasks
(e.g., in datasets like ChartQA and ScienceQA), while high-quality
image-caption datasets, critical for robust vision-language alignment, are only
available for NIs. To bridge this gap, we introduce Composite Captions
(CompCap), a flexible framework that leverages Large Language Models (LLMs) and
automation tools to synthesize CIs with accurate and detailed captions. Using
CompCap, we curate CompCap-118K, a dataset containing 118K image-caption pairs
across six CI types. We validate the effectiveness of CompCap-118K by
supervised fine-tuning MLLMs of three sizes: xGen-MM-inst.-4B and
LLaVA-NeXT-Vicuna-7B/13B. Empirical results show that CompCap-118K
significantly enhances MLLMs' understanding of CIs, yielding average gains of
1.7%, 2.0%, and 2.9% across eleven benchmarks, respectively.Summary
AI-Generated Summary