HQ-Edit: Um Conjunto de Dados de Alta Qualidade para Edição de Imagens Baseada em Instruções
HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing
April 15, 2024
Autores: Mude Hui, Siwei Yang, Bingchen Zhao, Yichun Shi, Heng Wang, Peng Wang, Yuyin Zhou, Cihang Xie
cs.AI
Resumo
Este estudo apresenta o HQ-Edit, um conjunto de dados de edição de imagens baseado em instruções de alta qualidade, contendo aproximadamente 200.000 edições. Diferentemente de abordagens anteriores que dependiam de orientação por atributos ou feedback humano para a construção de conjuntos de dados, nós desenvolvemos um pipeline escalável de coleta de dados que aproveita modelos de base avançados, especificamente GPT-4V e DALL-E 3. Para garantir sua alta qualidade, exemplos diversos são inicialmente coletados online, expandidos e, em seguida, utilizados para criar dípticos de alta qualidade que apresentam imagens de entrada e saída com prompts de texto detalhados, seguidos por um alinhamento preciso assegurado por meio de pós-processamento. Além disso, propomos duas métricas de avaliação, Alinhamento e Coerência, para quantificar a qualidade de pares de edição de imagens usando o GPT-4V. As imagens de alta resolução do HQ-Edit, ricas em detalhes e acompanhadas por prompts de edição abrangentes, aprimoram substancialmente as capacidades dos modelos existentes de edição de imagens. Por exemplo, um InstructPix2Pix ajustado com HQ-Edit pode alcançar desempenho de ponta em edição de imagens, superando até mesmo modelos ajustados com dados anotados por humanos. A página do projeto está disponível em https://thefllood.github.io/HQEdit_web.
English
This study introduces HQ-Edit, a high-quality instruction-based image editing
dataset with around 200,000 edits. Unlike prior approaches relying on attribute
guidance or human feedback on building datasets, we devise a scalable data
collection pipeline leveraging advanced foundation models, namely GPT-4V and
DALL-E 3. To ensure its high quality, diverse examples are first collected
online, expanded, and then used to create high-quality diptychs featuring input
and output images with detailed text prompts, followed by precise alignment
ensured through post-processing. In addition, we propose two evaluation
metrics, Alignment and Coherence, to quantitatively assess the quality of image
edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and
accompanied by comprehensive editing prompts, substantially enhance the
capabilities of existing image editing models. For example, an HQ-Edit
finetuned InstructPix2Pix can attain state-of-the-art image editing
performance, even surpassing those models fine-tuned with human-annotated data.
The project page is https://thefllood.github.io/HQEdit_web.