FINECAPTION: Generación de subtítulos de imágenes composicionales enfocándose en donde desee en cualquier nivel de granularidad
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity
November 23, 2024
Autores: Hang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo
cs.AI
Resumen
La llegada de los Modelos de Visión-Lenguaje Grandes (VLMs, por sus siglas en inglés) ha avanzado significativamente las tareas multimodales, permitiendo un razonamiento más sofisticado y preciso en diversas aplicaciones, incluyendo la descripción de imágenes y videos, la respuesta a preguntas visuales y la recuperación cruzada de modalidades. A pesar de sus capacidades superiores, los VLMs enfrentan dificultades con la percepción de información detallada sobre la composición regional de imágenes. Específicamente, tienen problemas para alinear con precisión las máscaras de segmentación con las semánticas correspondientes y describir de manera precisa los aspectos compositivos de las regiones referidas.
Sin embargo, la composicionalidad - la capacidad de entender y generar nuevas combinaciones de componentes visuales y textuales conocidos - es fundamental para facilitar un razonamiento coherente y una comprensión entre modalidades por parte de los VLMs. Para abordar este problema, proponemos FINECAPTION, un nuevo VLM que puede reconocer máscaras arbitrarias como entradas referenciales y procesar imágenes de alta resolución para la descripción de imágenes de manera compositiva en diferentes niveles de granularidad. Para respaldar este esfuerzo, presentamos COMPOSITIONCAP, un nuevo conjunto de datos para la descripción de imágenes regionales compuestas a múltiples niveles, que introduce la tarea de descripción de imágenes regionales consciente de atributos compositivos.
Los resultados empíricos demuestran la efectividad de nuestro modelo propuesto en comparación con otros VLMs de última generación. Además, analizamos las capacidades de los VLMs actuales en el reconocimiento de diversos estímulos visuales para la descripción de imágenes regionales compuestas, resaltando áreas para mejorar en el diseño y entrenamiento de los VLMs.
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal tasks, enabling more sophisticated and accurate reasoning across
various applications, including image and video captioning, visual question
answering, and cross-modal retrieval. Despite their superior capabilities, VLMs
struggle with fine-grained image regional composition information perception.
Specifically, they have difficulty accurately aligning the segmentation masks
with the corresponding semantics and precisely describing the compositional
aspects of the referred regions.
However, compositionality - the ability to understand and generate novel
combinations of known visual and textual components - is critical for
facilitating coherent reasoning and understanding across modalities by VLMs. To
address this issue, we propose FINECAPTION, a novel VLM that can recognize
arbitrary masks as referential inputs and process high-resolution images for
compositional image captioning at different granularity levels. To support this
endeavor, we introduce COMPOSITIONCAP, a new dataset for multi-grained region
compositional image captioning, which introduces the task of compositional
attribute-aware regional image captioning.
Empirical results demonstrate the effectiveness of our proposed model
compared to other state-of-the-art VLMs. Additionally, we analyze the
capabilities of current VLMs in recognizing various visual prompts for
compositional region image captioning, highlighting areas for improvement in
VLM design and training.Summary
AI-Generated Summary