HQ-Edit : Un ensemble de données de haute qualité pour l'édition d'images basée sur des instructions

papers.abstract

Cette étude présente HQ-Edit, un ensemble de données de haute qualité pour l'édition d'images basée sur des instructions, comprenant environ 200 000 modifications. Contrairement aux approches antérieures qui reposaient sur des attributs guidés ou des retours humains pour la construction de jeux de données, nous concevons un pipeline de collecte de données scalable en exploitant des modèles de fondation avancés, à savoir GPT-4V et DALL-E 3. Pour garantir sa haute qualité, des exemples diversifiés sont d'abord collectés en ligne, puis enrichis et utilisés pour créer des diptyques de haute qualité présentant des images d'entrée et de sortie accompagnées de prompts textuels détaillés, suivis d'un alignement précis assuré par un post-traitement. En outre, nous proposons deux métriques d'évaluation, Alignement et Cohérence, pour évaluer quantitativement la qualité des paires d'images éditées à l'aide de GPT-4V. Les images haute résolution de HQ-Edit, riches en détails et accompagnées de prompts d'édition complets, améliorent considérablement les capacités des modèles d'édition d'images existants. Par exemple, un InstructPix2Pix affiné avec HQ-Edit peut atteindre des performances d'édition d'images de pointe, surpassant même les modèles affinés avec des données annotées par des humains. La page du projet est disponible à l'adresse suivante : https://thefllood.github.io/HQEdit_web.

English

This study introduces HQ-Edit, a high-quality instruction-based image editing dataset with around 200,000 edits. Unlike prior approaches relying on attribute guidance or human feedback on building datasets, we devise a scalable data collection pipeline leveraging advanced foundation models, namely GPT-4V and DALL-E 3. To ensure its high quality, diverse examples are first collected online, expanded, and then used to create high-quality diptychs featuring input and output images with detailed text prompts, followed by precise alignment ensured through post-processing. In addition, we propose two evaluation metrics, Alignment and Coherence, to quantitatively assess the quality of image edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and accompanied by comprehensive editing prompts, substantially enhance the capabilities of existing image editing models. For example, an HQ-Edit finetuned InstructPix2Pix can attain state-of-the-art image editing performance, even surpassing those models fine-tuned with human-annotated data. The project page is https://thefllood.github.io/HQEdit_web.

HQ-Edit : Un ensemble de données de haute qualité pour l'édition d'images basée sur des instructions

HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

papers.abstract

Support