ChatPaper.aiChatPaper

FINECAPTION:どこでも好きな粒度で焦点を合わせた構成画像キャプショニング

FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

November 23, 2024
著者: Hang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo
cs.AI

要旨

大規模なビジョン言語モデル(VLM)の登場により、画像およびビデオのキャプショニング、視覚的な質問応答、クロスモーダル検索を含むさまざまなアプリケーションにおいて、より洗練された正確な推論が可能となり、マルチモーダルタスクが大幅に進化しました。これらの優れた機能にもかかわらず、VLMは微細な画像領域の構成情報認識に苦労しています。具体的には、セグメンテーションマスクを対応する意味と正確に整合させ、参照される領域の構成要素を正確に記述することに難しさを抱えています。 しかしながら、合成性(compositionality)- 既知の視覚的およびテキスト要素の新しい組み合わせを理解し生成する能力- は、VLMによるモーダリティ間の一貫した推論と理解を促進するために重要です。この問題に対処するために、私たちはFINECAPTIONを提案します。これは、異なる粒度レベルで構成画像キャプショニングを行うために高解像度画像を処理し、参照入力として任意のマスクを認識できる新しいVLMです。この取り組みを支援するために、COMPOSITIONCAPを導入します。これは、多粒度領域構成画像キャプショニングのための新しいデータセットであり、構成属性に注意を払った領域画像キャプショニングのタスクを導入します。 経験的な結果は、提案されたモデルが他の最先端のVLMに比べて有効であることを示しています。さらに、現在のVLMの能力を分析し、構成的な領域画像キャプショニングのためのさまざまな視覚的プロンプトを認識する能力を強調し、VLMの設計とトレーニングの改善のための領域を明らかにしています。
English
The advent of large Vision-Language Models (VLMs) has significantly advanced multimodal tasks, enabling more sophisticated and accurate reasoning across various applications, including image and video captioning, visual question answering, and cross-modal retrieval. Despite their superior capabilities, VLMs struggle with fine-grained image regional composition information perception. Specifically, they have difficulty accurately aligning the segmentation masks with the corresponding semantics and precisely describing the compositional aspects of the referred regions. However, compositionality - the ability to understand and generate novel combinations of known visual and textual components - is critical for facilitating coherent reasoning and understanding across modalities by VLMs. To address this issue, we propose FINECAPTION, a novel VLM that can recognize arbitrary masks as referential inputs and process high-resolution images for compositional image captioning at different granularity levels. To support this endeavor, we introduce COMPOSITIONCAP, a new dataset for multi-grained region compositional image captioning, which introduces the task of compositional attribute-aware regional image captioning. Empirical results demonstrate the effectiveness of our proposed model compared to other state-of-the-art VLMs. Additionally, we analyze the capabilities of current VLMs in recognizing various visual prompts for compositional region image captioning, highlighting areas for improvement in VLM design and training.

Summary

AI-Generated Summary

PDF82November 27, 2024