ChatPaper.aiChatPaper

HQ-Edit: 지시 기반 이미지 편집을 위한 고품질 데이터셋

HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

April 15, 2024
저자: Mude Hui, Siwei Yang, Bingchen Zhao, Yichun Shi, Heng Wang, Peng Wang, Yuyin Zhou, Cihang Xie
cs.AI

초록

본 연구는 약 20만 개의 편집을 포함한 고품질 지침 기반 이미지 편집 데이터셋인 HQ-Edit을 소개합니다. 속성 지침이나 데이터셋 구축을 위한 인간 피드백에 의존하는 기존 접근 방식과 달리, 우리는 GPT-4V와 DALL-E 3와 같은 고급 파운데이션 모델을 활용하여 확장 가능한 데이터 수집 파이프라인을 설계했습니다. 고품질을 보장하기 위해, 먼저 온라인에서 다양한 예시를 수집하고 확장한 후, 상세한 텍스트 프롬프트와 함께 입력 및 출력 이미지를 포함한 고품질 디프티크를 생성하였으며, 후처리를 통해 정확한 정렬을 보장했습니다. 또한, GPT-4V를 사용하여 이미지 편집 쌍의 품질을 정량적으로 평가하기 위해 Alignment와 Coherence라는 두 가지 평가 지표를 제안했습니다. HQ-Edit의 고해상도 이미지와 포괄적인 편집 프롬프트는 기존 이미지 편집 모델의 능력을 크게 향상시킵니다. 예를 들어, HQ-Edit으로 미세 조정된 InstructPix2Pix는 인간 주석 데이터로 미세 조정된 모델들을 능가하는 최첨단 이미지 편집 성능을 달성할 수 있습니다. 프로젝트 페이지는 https://thefllood.github.io/HQEdit_web에서 확인할 수 있습니다.
English
This study introduces HQ-Edit, a high-quality instruction-based image editing dataset with around 200,000 edits. Unlike prior approaches relying on attribute guidance or human feedback on building datasets, we devise a scalable data collection pipeline leveraging advanced foundation models, namely GPT-4V and DALL-E 3. To ensure its high quality, diverse examples are first collected online, expanded, and then used to create high-quality diptychs featuring input and output images with detailed text prompts, followed by precise alignment ensured through post-processing. In addition, we propose two evaluation metrics, Alignment and Coherence, to quantitatively assess the quality of image edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and accompanied by comprehensive editing prompts, substantially enhance the capabilities of existing image editing models. For example, an HQ-Edit finetuned InstructPix2Pix can attain state-of-the-art image editing performance, even surpassing those models fine-tuned with human-annotated data. The project page is https://thefllood.github.io/HQEdit_web.

Summary

AI-Generated Summary

PDF130December 15, 2024