미세캡션: 원하는 위치와 원하는 해상도에서 집합적 이미지 캡션 생성
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity
November 23, 2024
저자: Hang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo
cs.AI
초록
대형 Vision-Language Models (VLMs)의 등장은 다양한 응용 프로그램을 통해 이미지 및 비디오 캡션, 시각적 질문 응답, 그리고 교차 모달 검색을 포함한 다양한 작업에서 더 정교하고 정확한 추론을 가능케 하며, 다중 모달 작업을 크게 발전시켰다. 그들의 우수한 능력에도 불구하고, VLMs는 세밀한 이미지 영역 구성 정보 인식에 어려움을 겪고 있다. 구체적으로, 그들은 분할 마스크를 해당 의미론적 요소와 정확하게 일치시키고 참조된 영역의 구성 측면을 정확하게 설명하는 데 어려움을 겪고 있다.
그러나 합성성(compositionality) - 알려진 시각적 및 텍스트 구성 요소의 새로운 조합을 이해하고 생성하는 능력 -은 VLMs에 의한 모달 간 일관된 추론과 이해를 촉진하는 데 중요하다. 이 문제에 대처하기 위해, 우리는 임의의 마스크를 참조 입력으로 인식하고 다양한 해상도의 이미지를 처리하여 다양한 수준에서 구성 이미지 캡션을 수행할 수 있는 새로운 VLM인 FINECAPTION을 제안한다. 이를 지원하기 위해, 우리는 다중 미세 영역 구성 이미지 캡션 작업을 소개하는 새로운 데이터셋인 COMPOSITIONCAP을 소개한다. 이는 구성 속성을 인식하는 영역별 이미지 캡션 작업을 소개한다.
실험 결과는 우리가 제안한 모델이 다른 최첨단 VLMs와 비교하여 효과적임을 보여준다. 또한, 현재 VLMs의 능력을 분석하여 구성적인 영역 이미지 캡션을 위한 다양한 시각적 프롬프트를 인식하는 데 있어 개선할 부분을 강조하며, VLM 설계 및 교육에 대한 개선 영역을 강조한다.
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal tasks, enabling more sophisticated and accurate reasoning across
various applications, including image and video captioning, visual question
answering, and cross-modal retrieval. Despite their superior capabilities, VLMs
struggle with fine-grained image regional composition information perception.
Specifically, they have difficulty accurately aligning the segmentation masks
with the corresponding semantics and precisely describing the compositional
aspects of the referred regions.
However, compositionality - the ability to understand and generate novel
combinations of known visual and textual components - is critical for
facilitating coherent reasoning and understanding across modalities by VLMs. To
address this issue, we propose FINECAPTION, a novel VLM that can recognize
arbitrary masks as referential inputs and process high-resolution images for
compositional image captioning at different granularity levels. To support this
endeavor, we introduce COMPOSITIONCAP, a new dataset for multi-grained region
compositional image captioning, which introduces the task of compositional
attribute-aware regional image captioning.
Empirical results demonstrate the effectiveness of our proposed model
compared to other state-of-the-art VLMs. Additionally, we analyze the
capabilities of current VLMs in recognizing various visual prompts for
compositional region image captioning, highlighting areas for improvement in
VLM design and training.Summary
AI-Generated Summary