FINECAPTION: Композиционное описание изображений с акцентом на том, где бы вы ни хотели с любой степенью детализации.
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity
November 23, 2024
Авторы: Hang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo
cs.AI
Аннотация
Появление больших моделей видео-языка (VLM) значительно продвинуло мультимодальные задачи, обеспечивая более сложное и точное рассуждение в различных приложениях, включая подписывание изображений и видео, визуальное ответ на вопросы и кросс-модальный поиск. Несмотря на их превосходные возможности, VLM испытывают трудности с восприятием информации о тонкой композиции областей изображения. В частности, у них возникают сложности с точным выравниванием сегментационных масок с соответствующей семантикой и точным описанием композиционных аспектов упомянутых областей.
Однако композициональность - способность понимать и создавать новые комбинации известных визуальных и текстовых компонентов - критична для облегчения последовательного рассуждения и понимания между модальностями VLM. Для решения этой проблемы мы предлагаем FINECAPTION, новую модель VLM, которая может распознавать произвольные маски в качестве справочных входных данных и обрабатывать изображения высокого разрешения для композиционного подписывания изображений на разных уровнях детализации. Для поддержки этого начинания мы представляем COMPOSITIONCAP, новый набор данных для композиционного подписывания изображений с многозернистой региональной детализацией, который вводит задачу композиционного атрибутивно осознанного регионального подписывания изображений.
Эмпирические результаты демонстрируют эффективность нашей предложенной модели по сравнению с другими передовыми моделями VLM. Кроме того, мы анализируем возможности текущих VLM в распознавании различных визуальных подсказок для композиционного подписывания изображений регионов, выделяя области для улучшения в дизайне и обучении VLM.
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal tasks, enabling more sophisticated and accurate reasoning across
various applications, including image and video captioning, visual question
answering, and cross-modal retrieval. Despite their superior capabilities, VLMs
struggle with fine-grained image regional composition information perception.
Specifically, they have difficulty accurately aligning the segmentation masks
with the corresponding semantics and precisely describing the compositional
aspects of the referred regions.
However, compositionality - the ability to understand and generate novel
combinations of known visual and textual components - is critical for
facilitating coherent reasoning and understanding across modalities by VLMs. To
address this issue, we propose FINECAPTION, a novel VLM that can recognize
arbitrary masks as referential inputs and process high-resolution images for
compositional image captioning at different granularity levels. To support this
endeavor, we introduce COMPOSITIONCAP, a new dataset for multi-grained region
compositional image captioning, which introduces the task of compositional
attribute-aware regional image captioning.
Empirical results demonstrate the effectiveness of our proposed model
compared to other state-of-the-art VLMs. Additionally, we analyze the
capabilities of current VLMs in recognizing various visual prompts for
compositional region image captioning, highlighting areas for improvement in
VLM design and training.Summary
AI-Generated Summary