CompCap: Mejorando Modelos de Lenguaje Multimodal Grandes con Subtítulos Compuestos
CompCap: Improving Multimodal Large Language Models with Composite Captions
December 6, 2024
Autores: Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He
cs.AI
Resumen
¿Hasta qué punto pueden los Modelos de Lenguaje Multimodales de Gran Tamaño (MLLMs) entender imágenes compuestas? Las imágenes compuestas (CIs) son visuales sintéticos creados fusionando múltiples elementos visuales, como gráficos, carteles o capturas de pantalla, en lugar de ser capturados directamente por una cámara. Aunque las CIs son comunes en aplicaciones del mundo real, los desarrollos recientes de MLLMs se han centrado principalmente en interpretar imágenes naturales (NIs). Nuestra investigación revela que los MLLMs actuales enfrentan desafíos significativos para comprender con precisión las CIs, a menudo teniendo dificultades para extraer información o realizar un razonamiento complejo basado en estas imágenes. Descubrimos que los datos de entrenamiento existentes para CIs están principalmente formateados para tareas de pregunta-respuesta (por ejemplo, en conjuntos de datos como ChartQA y ScienceQA), mientras que los conjuntos de datos de subtítulos de imágenes de alta calidad, críticos para un alineamiento robusto entre visión y lenguaje, solo están disponibles para NIs. Para cerrar esta brecha, presentamos Subtítulos Compuestos (CompCap), un marco flexible que aprovecha Modelos de Lenguaje de Gran Tamaño (LLMs) y herramientas de automatización para sintetizar CIs con subtítulos precisos y detallados. Utilizando CompCap, creamos CompCap-118K, un conjunto de datos que contiene 118K pares de imágenes y subtítulos en seis tipos de CI. Validamos la efectividad de CompCap-118K mediante el ajuste fino supervisado de MLLMs de tres tamaños: xGen-MM-inst.-4B y LLaVA-NeXT-Vicuna-7B/13B. Los resultados empíricos muestran que CompCap-118K mejora significativamente la comprensión de CIs por parte de los MLLMs, produciendo ganancias promedio de 1.7%, 2.0% y 2.9% en once evaluaciones respectivamente.
English
How well can Multimodal Large Language Models (MLLMs) understand composite
images? Composite images (CIs) are synthetic visuals created by merging
multiple visual elements, such as charts, posters, or screenshots, rather than
being captured directly by a camera. While CIs are prevalent in real-world
applications, recent MLLM developments have primarily focused on interpreting
natural images (NIs). Our research reveals that current MLLMs face significant
challenges in accurately understanding CIs, often struggling to extract
information or perform complex reasoning based on these images. We find that
existing training data for CIs are mostly formatted for question-answer tasks
(e.g., in datasets like ChartQA and ScienceQA), while high-quality
image-caption datasets, critical for robust vision-language alignment, are only
available for NIs. To bridge this gap, we introduce Composite Captions
(CompCap), a flexible framework that leverages Large Language Models (LLMs) and
automation tools to synthesize CIs with accurate and detailed captions. Using
CompCap, we curate CompCap-118K, a dataset containing 118K image-caption pairs
across six CI types. We validate the effectiveness of CompCap-118K by
supervised fine-tuning MLLMs of three sizes: xGen-MM-inst.-4B and
LLaVA-NeXT-Vicuna-7B/13B. Empirical results show that CompCap-118K
significantly enhances MLLMs' understanding of CIs, yielding average gains of
1.7%, 2.0%, and 2.9% across eleven benchmarks, respectively.Summary
AI-Generated Summary