HQ-Edit: Un Dataset di Alta Qualità per la Modifica di Immagini Basata su Istruzioni

Abstract

Questo studio introduce HQ-Edit, un dataset di editing di immagini basato su istruzioni di alta qualità, contenente circa 200.000 modifiche. A differenza degli approcci precedenti che si basavano su indicazioni di attributi o feedback umani per la costruzione di dataset, abbiamo ideato una pipeline scalabile per la raccolta dei dati, sfruttando modelli di base avanzati, ovvero GPT-4V e DALL-E 3. Per garantire l'alta qualità, esempi diversificati vengono prima raccolti online, ampliati e poi utilizzati per creare dittici di alta qualità che presentano immagini di input e output con prompt testuali dettagliati, seguiti da un allineamento preciso assicurato attraverso post-elaborazione. Inoltre, proponiamo due metriche di valutazione, Allineamento e Coerenza, per valutare quantitativamente la qualità delle coppie di immagini modificate utilizzando GPT-4V. Le immagini ad alta risoluzione di HQ-Edit, ricche di dettagli e accompagnate da prompt di editing completi, migliorano sostanzialmente le capacità dei modelli di editing di immagini esistenti. Ad esempio, un InstructPix2Pix fine-tuned con HQ-Edit può raggiungere prestazioni di editing di immagini all'avanguardia, superando persino quei modelli fine-tuned con dati annotati manualmente. La pagina del progetto è https://thefllood.github.io/HQEdit_web.

English

This study introduces HQ-Edit, a high-quality instruction-based image editing dataset with around 200,000 edits. Unlike prior approaches relying on attribute guidance or human feedback on building datasets, we devise a scalable data collection pipeline leveraging advanced foundation models, namely GPT-4V and DALL-E 3. To ensure its high quality, diverse examples are first collected online, expanded, and then used to create high-quality diptychs featuring input and output images with detailed text prompts, followed by precise alignment ensured through post-processing. In addition, we propose two evaluation metrics, Alignment and Coherence, to quantitatively assess the quality of image edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and accompanied by comprehensive editing prompts, substantially enhance the capabilities of existing image editing models. For example, an HQ-Edit finetuned InstructPix2Pix can attain state-of-the-art image editing performance, even surpassing those models fine-tuned with human-annotated data. The project page is https://thefllood.github.io/HQEdit_web.

HQ-Edit: Un Dataset di Alta Qualità per la Modifica di Immagini Basata su Istruzioni

HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

Abstract

Support