HQ-Edit: Een hoogwaardige dataset voor instructiegebaseerde beeldbewerking
HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing
April 15, 2024
Auteurs: Mude Hui, Siwei Yang, Bingchen Zhao, Yichun Shi, Heng Wang, Peng Wang, Yuyin Zhou, Cihang Xie
cs.AI
Samenvatting
Dit onderzoek introduceert HQ-Edit, een hoogwaardige instructiegebaseerde dataset voor beeldbewerking met ongeveer 200.000 bewerkingen. In tegenstelling tot eerdere benaderingen die vertrouwen op attribuutbegeleiding of menselijke feedback voor het opbouwen van datasets, ontwikkelen we een schaalbare datacollectiepijplijn die gebruikmaakt van geavanceerde foundationmodellen, namelijk GPT-4V en DALL-E 3. Om de hoge kwaliteit te waarborgen, worden eerst diverse voorbeelden online verzameld, uitgebreid en vervolgens gebruikt om hoogwaardige diptieken te creëren met invoer- en uitvoerafbeeldingen en gedetailleerde tekstprompts, gevolgd door nauwkeurige uitlijning die wordt gegarandeerd door post-processing. Daarnaast stellen we twee evaluatiemetrics voor, Alignment en Coherence, om de kwaliteit van beeldbewerkingsparen kwantitatief te beoordelen met behulp van GPT-4V. De hoogwaardige afbeeldingen van HQ-Edit, rijk aan details en vergezeld van uitgebreide bewerkingsprompts, verbeteren de mogelijkheden van bestaande beeldbewerkingsmodellen aanzienlijk. Zo kan een met HQ-Edit gefinetuned InstructPix2Pix state-of-the-art prestaties leveren in beeldbewerking, zelfs modellen overtreffen die zijn gefinetuned met door mensen geannoteerde data. De projectpagina is te vinden op https://thefllood.github.io/HQEdit_web.
English
This study introduces HQ-Edit, a high-quality instruction-based image editing
dataset with around 200,000 edits. Unlike prior approaches relying on attribute
guidance or human feedback on building datasets, we devise a scalable data
collection pipeline leveraging advanced foundation models, namely GPT-4V and
DALL-E 3. To ensure its high quality, diverse examples are first collected
online, expanded, and then used to create high-quality diptychs featuring input
and output images with detailed text prompts, followed by precise alignment
ensured through post-processing. In addition, we propose two evaluation
metrics, Alignment and Coherence, to quantitatively assess the quality of image
edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and
accompanied by comprehensive editing prompts, substantially enhance the
capabilities of existing image editing models. For example, an HQ-Edit
finetuned InstructPix2Pix can attain state-of-the-art image editing
performance, even surpassing those models fine-tuned with human-annotated data.
The project page is https://thefllood.github.io/HQEdit_web.