ChatPaper.aiChatPaper

DOCCI: 연결 및 대조 이미지 설명

DOCCI: Descriptions of Connected and Contrasting Images

April 30, 2024
저자: Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge
cs.AI

초록

비전-언어 데이터셋은 텍스트-이미지(T2I) 및 이미지-텍스트(I2T) 연구 모두에 필수적입니다. 그러나 현재의 데이터셋은 모델이 더 풍부한 연관성을 학습할 수 있도록 세밀한 세부 사항을 포함한 설명이 부족합니다. 이러한 격차를 메우기 위해, 우리는 연결 및 대조 이미지 설명(DOCCI) 데이터셋을 소개합니다. 이 데이터셋은 단일 연구자가 촬영, 선별 및 기부한 15,000장의 이미지에 대해 인간이 주석을 단 긴 영어 설명을 포함하고 있으며, 공간 관계, 계수, 텍스트 렌더링, 세계 지식 등 주요 과제를 포착하는 데 중점을 두었습니다. 우리는 인간 주석자에게 각 이미지에 대한 포괄적인 설명을 작성하도록 지시했습니다; 이 설명들은 평균 136단어 길이이며, 관련되거나 유사한 이미지들과 명확히 구별되도록 제작되었습니다. 각 설명은 매우 구성적이며 일반적으로 여러 과제를 포괄합니다. 양적 및 질적 분석을 통해, 우리는 DOCCI가 이미지-텍스트 생성을 위한 효과적인 훈련 자원으로 기능함을 입증했습니다 -- DOCCI로 미세 조정된 PaLI 5B 모델은 LLaVA-1.5 7B 및 InstructBLIP 7B와 같은 고성능 대형 모델과 동등하거나 우수한 결과를 보여줍니다. 더 나아가, 우리는 DOCCI가 텍스트-이미지 생성을 위한 유용한 테스트베드임을 보여주며, 현재의 텍스트-이미지 모델이 긴 설명과 세부 사항을 포착하는 데 있어 한계를 강조합니다.
English
Vision-language datasets are vital for both text-to-image (T2I) and image-to-text (I2T) research. However, current datasets lack descriptions with fine-grained detail that would allow for richer associations to be learned by models. To fill the gap, we introduce Descriptions of Connected and Contrasting Images (DOCCI), a dataset with long, human-annotated English descriptions for 15k images that were taken, curated and donated by a single researcher intent on capturing key challenges such as spatial relations, counting, text rendering, world knowledge, and more. We instruct human annotators to create comprehensive descriptions for each image; these average 136 words in length and are crafted to clearly distinguish each image from those that are related or similar. Each description is highly compositional and typically encompasses multiple challenges. Through both quantitative and qualitative analyses, we demonstrate that DOCCI serves as an effective training resource for image-to-text generation -- a PaLI 5B model finetuned on DOCCI shows equal or superior results compared to highly-performant larger models like LLaVA-1.5 7B and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for text-to-image generation, highlighting the limitations of current text-to-image models in capturing long descriptions and fine details.

Summary

AI-Generated Summary

PDF131December 8, 2024