LEGENDA FINA: Legendagem de Imagens Composicional Focada em Qualquer Local que Você Desejar em Qualquer Granularidade
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity
November 23, 2024
Autores: Hang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo
cs.AI
Resumo
O surgimento dos grandes Modelos Visão-Linguagem (VLMs) avançou significativamente as tarefas multimodais, possibilitando raciocínio mais sofisticado e preciso em diversas aplicações, incluindo legendagem de imagens e vídeos, resposta a perguntas visuais e recuperação cruzada de modalidades. Apesar de suas capacidades superiores, os VLMs enfrentam dificuldades na percepção de informações de composição regional finamente detalhadas das imagens. Especificamente, têm dificuldade em alinhar com precisão as máscaras de segmentação com as semânticas correspondentes e descrever precisamente os aspectos composicionais das regiões referidas.
No entanto, a composicionalidade - a capacidade de entender e gerar novas combinações de componentes visuais e textuais conhecidos - é crucial para facilitar o raciocínio coerente e a compreensão entre modalidades pelos VLMs. Para abordar essa questão, propomos o FINECAPTION, um novo VLM que pode reconhecer máscaras arbitrárias como entradas referenciais e processar imagens de alta resolução para legendagem de imagens com composição em diferentes níveis de granularidade. Para apoiar esse esforço, introduzimos o COMPOSITIONCAP, um novo conjunto de dados para legendagem de imagens regionais com composição multigranular, que apresenta a tarefa de legendagem de imagens regionais consciente de atributos composicionais.
Resultados empíricos demonstram a eficácia de nosso modelo proposto em comparação com outros VLMs de última geração. Além disso, analisamos as capacidades dos atuais VLMs em reconhecer várias sugestões visuais para legendagem de imagens regionais compostas, destacando áreas para melhoria no design e treinamento de VLMs.
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal tasks, enabling more sophisticated and accurate reasoning across
various applications, including image and video captioning, visual question
answering, and cross-modal retrieval. Despite their superior capabilities, VLMs
struggle with fine-grained image regional composition information perception.
Specifically, they have difficulty accurately aligning the segmentation masks
with the corresponding semantics and precisely describing the compositional
aspects of the referred regions.
However, compositionality - the ability to understand and generate novel
combinations of known visual and textual components - is critical for
facilitating coherent reasoning and understanding across modalities by VLMs. To
address this issue, we propose FINECAPTION, a novel VLM that can recognize
arbitrary masks as referential inputs and process high-resolution images for
compositional image captioning at different granularity levels. To support this
endeavor, we introduce COMPOSITIONCAP, a new dataset for multi-grained region
compositional image captioning, which introduces the task of compositional
attribute-aware regional image captioning.
Empirical results demonstrate the effectiveness of our proposed model
compared to other state-of-the-art VLMs. Additionally, we analyze the
capabilities of current VLMs in recognizing various visual prompts for
compositional region image captioning, highlighting areas for improvement in
VLM design and training.Summary
AI-Generated Summary