FEINEUNTERSCHRIFT: Kompositionelle Bildunterschriften mit Fokus auf beliebige Granularitäten an jedem Ort
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity
November 23, 2024
Autoren: Hang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo
cs.AI
Zusammenfassung
Das Aufkommen großer Vision-Language-Modelle (VLMs) hat die multimodalen Aufgaben erheblich vorangetrieben, was eine anspruchsvollere und genauere Schlussfolgerung über verschiedene Anwendungen ermöglicht, einschließlich Bild- und Videobeschreibungen, visuelle Fragebeantwortung und Cross-Modal Retrieval. Trotz ihrer überlegenen Fähigkeiten haben VLMs Schwierigkeiten mit der Wahrnehmung feingranularer regionaler Bildkompositionsdaten. Insbesondere fällt es ihnen schwer, die Segmentierungsmasken genau mit den entsprechenden Semantiken abzustimmen und die kompositorischen Aspekte der referenzierten Regionen präzise zu beschreiben.
Die Kompositionalität - die Fähigkeit, neue Kombinationen bekannter visueller und textueller Komponenten zu verstehen und zu generieren - ist jedoch entscheidend, um kohärentes Schlussfolgern und Verstehen über Modalitäten hinweg durch VLMs zu erleichtern. Um dieses Problem anzugehen, schlagen wir FINECAPTION vor, ein neuartiges VLM, das beliebige Masken als referenzielle Eingaben erkennen kann und hochauflösende Bilder für die kompositorische Bildbeschreibung auf verschiedenen Granularitätsebenen verarbeiten kann. Zur Unterstützung dieses Vorhabens führen wir COMPOSITIONCAP ein, einen neuen Datensatz für die kompositorische Bildbeschreibung von multi-granularen Regionen, der die Aufgabe der kompositorischen attributbewussten regionalen Bildbeschreibung einführt.
Empirische Ergebnisse zeigen die Wirksamkeit unseres vorgeschlagenen Modells im Vergleich zu anderen modernsten VLMs. Darüber hinaus analysieren wir die Fähigkeiten aktueller VLMs bei der Erkennung verschiedener visueller Hinweise für die kompositorische regionale Bildbeschreibung und heben Bereiche hervor, in denen das Design und Training von VLMs verbessert werden können.
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal tasks, enabling more sophisticated and accurate reasoning across
various applications, including image and video captioning, visual question
answering, and cross-modal retrieval. Despite their superior capabilities, VLMs
struggle with fine-grained image regional composition information perception.
Specifically, they have difficulty accurately aligning the segmentation masks
with the corresponding semantics and precisely describing the compositional
aspects of the referred regions.
However, compositionality - the ability to understand and generate novel
combinations of known visual and textual components - is critical for
facilitating coherent reasoning and understanding across modalities by VLMs. To
address this issue, we propose FINECAPTION, a novel VLM that can recognize
arbitrary masks as referential inputs and process high-resolution images for
compositional image captioning at different granularity levels. To support this
endeavor, we introduce COMPOSITIONCAP, a new dataset for multi-grained region
compositional image captioning, which introduces the task of compositional
attribute-aware regional image captioning.
Empirical results demonstrate the effectiveness of our proposed model
compared to other state-of-the-art VLMs. Additionally, we analyze the
capabilities of current VLMs in recognizing various visual prompts for
compositional region image captioning, highlighting areas for improvement in
VLM design and training.Summary
AI-Generated Summary