HQ-Edit : Un ensemble de données de haute qualité pour l'édition d'images basée sur des instructions
HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing
April 15, 2024
Auteurs: Mude Hui, Siwei Yang, Bingchen Zhao, Yichun Shi, Heng Wang, Peng Wang, Yuyin Zhou, Cihang Xie
cs.AI
Résumé
Cette étude présente HQ-Edit, un ensemble de données de haute qualité pour l'édition d'images basée sur des instructions, comprenant environ 200 000 modifications. Contrairement aux approches antérieures qui reposaient sur des attributs guidés ou des retours humains pour la construction de jeux de données, nous concevons un pipeline de collecte de données scalable en exploitant des modèles de fondation avancés, à savoir GPT-4V et DALL-E 3. Pour garantir sa haute qualité, des exemples diversifiés sont d'abord collectés en ligne, puis enrichis et utilisés pour créer des diptyques de haute qualité présentant des images d'entrée et de sortie accompagnées de prompts textuels détaillés, suivis d'un alignement précis assuré par un post-traitement. En outre, nous proposons deux métriques d'évaluation, Alignement et Cohérence, pour évaluer quantitativement la qualité des paires d'images éditées à l'aide de GPT-4V. Les images haute résolution de HQ-Edit, riches en détails et accompagnées de prompts d'édition complets, améliorent considérablement les capacités des modèles d'édition d'images existants. Par exemple, un InstructPix2Pix affiné avec HQ-Edit peut atteindre des performances d'édition d'images de pointe, surpassant même les modèles affinés avec des données annotées par des humains. La page du projet est disponible à l'adresse suivante : https://thefllood.github.io/HQEdit_web.
English
This study introduces HQ-Edit, a high-quality instruction-based image editing
dataset with around 200,000 edits. Unlike prior approaches relying on attribute
guidance or human feedback on building datasets, we devise a scalable data
collection pipeline leveraging advanced foundation models, namely GPT-4V and
DALL-E 3. To ensure its high quality, diverse examples are first collected
online, expanded, and then used to create high-quality diptychs featuring input
and output images with detailed text prompts, followed by precise alignment
ensured through post-processing. In addition, we propose two evaluation
metrics, Alignment and Coherence, to quantitatively assess the quality of image
edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and
accompanied by comprehensive editing prompts, substantially enhance the
capabilities of existing image editing models. For example, an HQ-Edit
finetuned InstructPix2Pix can attain state-of-the-art image editing
performance, even surpassing those models fine-tuned with human-annotated data.
The project page is https://thefllood.github.io/HQEdit_web.Summary
AI-Generated Summary