Fijne Bijschrift: Compositie van Beeldbijschriften met de Focus Waar Je Maar Wilt op Elk Niveau van Detail
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity
November 23, 2024
Auteurs: Hang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo
cs.AI
Samenvatting
De opkomst van grote Vision-Language Modellen (VLM's) heeft aanzienlijke vooruitgang geboekt in multimodale taken, waardoor meer geavanceerde en nauwkeurige redenering mogelijk is over verschillende toepassingen, waaronder het onderschriften van afbeeldingen en video's, visuele vraagbeantwoording en cross-modale opvraging. Ondanks hun superieure mogelijkheden hebben VLM's moeite met het waarnemen van gedetailleerde informatie over de regionale samenstelling van afbeeldingen. Specifiek hebben ze moeite met het nauwkeurig afstemmen van de segmentatiemaskers met de overeenkomstige semantiek en het nauwkeurig beschrijven van de samenstellende aspecten van de genoemde regio's.
Echter, compositionality - het vermogen om nieuwe combinaties van bekende visuele en tekstuele componenten te begrijpen en te genereren - is cruciaal voor het vergemakkelijken van coherente redenering en begrip over modaliteiten door VLM's. Om dit probleem aan te pakken, stellen we FINECAPTION voor, een nieuw VLM dat willekeurige maskers als referentie-invoer kan herkennen en hoogwaardige afbeeldingen kan verwerken voor compositionele afbeeldingsonderschriften op verschillende granulariteitsniveaus. Om dit initiatief te ondersteunen, introduceren we COMPOSITIONCAP, een nieuwe dataset voor compositionele afbeeldingsonderschriften op meerdere niveaus van regiosamenstelling, die de taak van compositionele attribuutbewuste regionale afbeeldingsonderschriften introduceert.
Empirische resultaten tonen de effectiviteit van ons voorgestelde model in vergelijking met andere toonaangevende VLM's. Daarnaast analyseren we de mogelijkheden van huidige VLM's in het herkennen van verschillende visuele aanwijzingen voor compositionele regionale afbeeldingsonderschriften, waarbij gebieden voor verbetering in VLM-ontwerp en -training worden belicht.
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal tasks, enabling more sophisticated and accurate reasoning across
various applications, including image and video captioning, visual question
answering, and cross-modal retrieval. Despite their superior capabilities, VLMs
struggle with fine-grained image regional composition information perception.
Specifically, they have difficulty accurately aligning the segmentation masks
with the corresponding semantics and precisely describing the compositional
aspects of the referred regions.
However, compositionality - the ability to understand and generate novel
combinations of known visual and textual components - is critical for
facilitating coherent reasoning and understanding across modalities by VLMs. To
address this issue, we propose FINECAPTION, a novel VLM that can recognize
arbitrary masks as referential inputs and process high-resolution images for
compositional image captioning at different granularity levels. To support this
endeavor, we introduce COMPOSITIONCAP, a new dataset for multi-grained region
compositional image captioning, which introduces the task of compositional
attribute-aware regional image captioning.
Empirical results demonstrate the effectiveness of our proposed model
compared to other state-of-the-art VLMs. Additionally, we analyze the
capabilities of current VLMs in recognizing various visual prompts for
compositional region image captioning, highlighting areas for improvement in
VLM design and training.Summary
AI-Generated Summary