LEGENDA FINA: Legendagem de Imagens Composicional Focada em Qualquer Local que Você Desejar em Qualquer Granularidade

Resumo

O surgimento dos grandes Modelos Visão-Linguagem (VLMs) avançou significativamente as tarefas multimodais, possibilitando raciocínio mais sofisticado e preciso em diversas aplicações, incluindo legendagem de imagens e vídeos, resposta a perguntas visuais e recuperação cruzada de modalidades. Apesar de suas capacidades superiores, os VLMs enfrentam dificuldades na percepção de informações de composição regional finamente detalhadas das imagens. Especificamente, têm dificuldade em alinhar com precisão as máscaras de segmentação com as semânticas correspondentes e descrever precisamente os aspectos composicionais das regiões referidas. No entanto, a composicionalidade - a capacidade de entender e gerar novas combinações de componentes visuais e textuais conhecidos - é crucial para facilitar o raciocínio coerente e a compreensão entre modalidades pelos VLMs. Para abordar essa questão, propomos o FINECAPTION, um novo VLM que pode reconhecer máscaras arbitrárias como entradas referenciais e processar imagens de alta resolução para legendagem de imagens com composição em diferentes níveis de granularidade. Para apoiar esse esforço, introduzimos o COMPOSITIONCAP, um novo conjunto de dados para legendagem de imagens regionais com composição multigranular, que apresenta a tarefa de legendagem de imagens regionais consciente de atributos composicionais. Resultados empíricos demonstram a eficácia de nosso modelo proposto em comparação com outros VLMs de última geração. Além disso, analisamos as capacidades dos atuais VLMs em reconhecer várias sugestões visuais para legendagem de imagens regionais compostas, destacando áreas para melhoria no design e treinamento de VLMs.

English

The advent of large Vision-Language Models (VLMs) has significantly advanced multimodal tasks, enabling more sophisticated and accurate reasoning across various applications, including image and video captioning, visual question answering, and cross-modal retrieval. Despite their superior capabilities, VLMs struggle with fine-grained image regional composition information perception. Specifically, they have difficulty accurately aligning the segmentation masks with the corresponding semantics and precisely describing the compositional aspects of the referred regions. However, compositionality - the ability to understand and generate novel combinations of known visual and textual components - is critical for facilitating coherent reasoning and understanding across modalities by VLMs. To address this issue, we propose FINECAPTION, a novel VLM that can recognize arbitrary masks as referential inputs and process high-resolution images for compositional image captioning at different granularity levels. To support this endeavor, we introduce COMPOSITIONCAP, a new dataset for multi-grained region compositional image captioning, which introduces the task of compositional attribute-aware regional image captioning. Empirical results demonstrate the effectiveness of our proposed model compared to other state-of-the-art VLMs. Additionally, we analyze the capabilities of current VLMs in recognizing various visual prompts for compositional region image captioning, highlighting areas for improvement in VLM design and training.

LEGENDA FINA: Legendagem de Imagens Composicional Focada em Qualquer Local que Você Desejar em Qualquer Granularidade

FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Resumo

Support