LÉGENDE FINECAPTION : Description d'Images Compositionnelle Axée sur l'Endroit de Votre Choix à Toute Granularité
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity
November 23, 2024
Auteurs: Hang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo
cs.AI
Résumé
L'avènement des grands Modèles Vision-Texte (VLM) a considérablement fait progresser les tâches multimodales, permettant un raisonnement plus sophistiqué et précis à travers diverses applications, y compris la légende d'images et de vidéos, la réponse à des questions visuelles et la recherche cross-modale. Malgré leurs capacités supérieures, les VLM rencontrent des difficultés avec la perception des informations de composition régionale d'image à grain fin. En particulier, ils ont du mal à aligner avec précision les masques de segmentation avec les sémantiques correspondantes et à décrire précisément les aspects compositionnels des régions mentionnées.
Cependant, la compositionnalité - la capacité à comprendre et générer de nouvelles combinaisons d'éléments visuels et textuels connus - est cruciale pour faciliter un raisonnement cohérent et une compréhension à travers les modalités par les VLM. Pour résoudre ce problème, nous proposons FINECAPTION, un nouveau VLM capable de reconnaître des masques arbitraires en tant qu'entrées référentielles et de traiter des images haute résolution pour la légende compositionnelle d'images à différents niveaux de granularité. Pour soutenir cette entreprise, nous introduisons COMPOSITIONCAP, un nouvel ensemble de données pour la légende d'images régionales compositionnelles multi-granulaires, qui présente la tâche de légende d'images régionales consciente des attributs compositionnels.
Des résultats empiriques démontrent l'efficacité de notre modèle proposé par rapport à d'autres VLM de pointe. De plus, nous analysons les capacités des VLM actuels à reconnaître divers stimuli visuels pour la légende d'images régionales compositionnelles, mettant en évidence les domaines à améliorer dans la conception et l'entraînement des VLM.
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal tasks, enabling more sophisticated and accurate reasoning across
various applications, including image and video captioning, visual question
answering, and cross-modal retrieval. Despite their superior capabilities, VLMs
struggle with fine-grained image regional composition information perception.
Specifically, they have difficulty accurately aligning the segmentation masks
with the corresponding semantics and precisely describing the compositional
aspects of the referred regions.
However, compositionality - the ability to understand and generate novel
combinations of known visual and textual components - is critical for
facilitating coherent reasoning and understanding across modalities by VLMs. To
address this issue, we propose FINECAPTION, a novel VLM that can recognize
arbitrary masks as referential inputs and process high-resolution images for
compositional image captioning at different granularity levels. To support this
endeavor, we introduce COMPOSITIONCAP, a new dataset for multi-grained region
compositional image captioning, which introduces the task of compositional
attribute-aware regional image captioning.
Empirical results demonstrate the effectiveness of our proposed model
compared to other state-of-the-art VLMs. Additionally, we analyze the
capabilities of current VLMs in recognizing various visual prompts for
compositional region image captioning, highlighting areas for improvement in
VLM design and training.Summary
AI-Generated Summary