ChatPaper.aiChatPaper

HQ-Edit: Een hoogwaardige dataset voor instructiegebaseerde beeldbewerking

HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

April 15, 2024
Auteurs: Mude Hui, Siwei Yang, Bingchen Zhao, Yichun Shi, Heng Wang, Peng Wang, Yuyin Zhou, Cihang Xie
cs.AI

Samenvatting

Dit onderzoek introduceert HQ-Edit, een hoogwaardige instructiegebaseerde dataset voor beeldbewerking met ongeveer 200.000 bewerkingen. In tegenstelling tot eerdere benaderingen die vertrouwen op attribuutbegeleiding of menselijke feedback voor het opbouwen van datasets, ontwikkelen we een schaalbare datacollectiepijplijn die gebruikmaakt van geavanceerde foundationmodellen, namelijk GPT-4V en DALL-E 3. Om de hoge kwaliteit te waarborgen, worden eerst diverse voorbeelden online verzameld, uitgebreid en vervolgens gebruikt om hoogwaardige diptieken te creëren met invoer- en uitvoerafbeeldingen en gedetailleerde tekstprompts, gevolgd door nauwkeurige uitlijning die wordt gegarandeerd door post-processing. Daarnaast stellen we twee evaluatiemetrics voor, Alignment en Coherence, om de kwaliteit van beeldbewerkingsparen kwantitatief te beoordelen met behulp van GPT-4V. De hoogwaardige afbeeldingen van HQ-Edit, rijk aan details en vergezeld van uitgebreide bewerkingsprompts, verbeteren de mogelijkheden van bestaande beeldbewerkingsmodellen aanzienlijk. Zo kan een met HQ-Edit gefinetuned InstructPix2Pix state-of-the-art prestaties leveren in beeldbewerking, zelfs modellen overtreffen die zijn gefinetuned met door mensen geannoteerde data. De projectpagina is te vinden op https://thefllood.github.io/HQEdit_web.
English
This study introduces HQ-Edit, a high-quality instruction-based image editing dataset with around 200,000 edits. Unlike prior approaches relying on attribute guidance or human feedback on building datasets, we devise a scalable data collection pipeline leveraging advanced foundation models, namely GPT-4V and DALL-E 3. To ensure its high quality, diverse examples are first collected online, expanded, and then used to create high-quality diptychs featuring input and output images with detailed text prompts, followed by precise alignment ensured through post-processing. In addition, we propose two evaluation metrics, Alignment and Coherence, to quantitatively assess the quality of image edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and accompanied by comprehensive editing prompts, substantially enhance the capabilities of existing image editing models. For example, an HQ-Edit finetuned InstructPix2Pix can attain state-of-the-art image editing performance, even surpassing those models fine-tuned with human-annotated data. The project page is https://thefllood.github.io/HQEdit_web.
PDF130February 8, 2026