HQ-Edit: Un conjunto de datos de alta calidad para la edición de imágenes basada en instrucciones

Resumen

Este estudio presenta HQ-Edit, un conjunto de datos de edición de imágenes basado en instrucciones de alta calidad con alrededor de 200,000 ediciones. A diferencia de enfoques previos que dependen de guías de atributos o retroalimentación humana para construir conjuntos de datos, diseñamos una canalización escalable de recopilación de datos que aprovecha modelos base avanzados, específicamente GPT-4V y DALL-E 3. Para garantizar su alta calidad, primero se recopilan diversos ejemplos en línea, se expanden y luego se utilizan para crear dípticos de alta calidad que presentan imágenes de entrada y salida con indicaciones de texto detalladas, seguidas de una alineación precisa asegurada mediante postprocesamiento. Además, proponemos dos métricas de evaluación, Alineación y Coherencia, para evaluar cuantitativamente la calidad de pares de edición de imágenes utilizando GPT-4V. Las imágenes de alta resolución de HQ-Edit, ricas en detalles y acompañadas de indicaciones de edición completas, mejoran sustancialmente las capacidades de los modelos de edición de imágenes existentes. Por ejemplo, un InstructPix2Pix ajustado con HQ-Edit puede alcanzar un rendimiento de edición de imágenes de vanguardia, superando incluso a aquellos modelos ajustados con datos anotados por humanos. La página del proyecto es https://thefllood.github.io/HQEdit_web.

English

This study introduces HQ-Edit, a high-quality instruction-based image editing dataset with around 200,000 edits. Unlike prior approaches relying on attribute guidance or human feedback on building datasets, we devise a scalable data collection pipeline leveraging advanced foundation models, namely GPT-4V and DALL-E 3. To ensure its high quality, diverse examples are first collected online, expanded, and then used to create high-quality diptychs featuring input and output images with detailed text prompts, followed by precise alignment ensured through post-processing. In addition, we propose two evaluation metrics, Alignment and Coherence, to quantitatively assess the quality of image edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and accompanied by comprehensive editing prompts, substantially enhance the capabilities of existing image editing models. For example, an HQ-Edit finetuned InstructPix2Pix can attain state-of-the-art image editing performance, even surpassing those models fine-tuned with human-annotated data. The project page is https://thefllood.github.io/HQEdit_web.

HQ-Edit: Un conjunto de datos de alta calidad para la edición de imágenes basada en instrucciones

HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

Resumen

Support