HQ-Edit: Высококачественный набор данных для редактирования изображений на основе инструкций

Аннотация

Данное исследование представляет HQ-Edit, набор данных высокого качества для редактирования изображений на основе инструкций, содержащий около 200 000 правок. В отличие от предыдущих подходов, основанных на атрибутивном руководстве или обратной связи от людей при создании наборов данных, мы разработали масштабный процесс сбора данных, используя передовые базовые модели, а именно GPT-4V и DALL-E 3. Для обеспечения высокого качества сначала онлайн собираются разнообразные примеры, затем расширяются и используются для создания диптихов высокого качества с входными и выходными изображениями, сопровождаемыми подробными текстовыми подсказками, после чего обеспечивается точное выравнивание через последующую обработку. Кроме того, мы предлагаем две метрики оценки, Выравнивание и Согласованность, для количественной оценки качества пар редактирования изображений с использованием GPT-4V. Высококачественные изображения HQ-Edit, богатые деталями и сопровождаемые всесторонними инструкциями по редактированию, значительно расширяют возможности существующих моделей редактирования изображений. Например, HQ-Edit, донастроенный для InstructPix2Pix, может достичь современной производительности в редактировании изображений, даже превзойдя модели, донастроенные с использованием данных с аннотациями людей. Страница проекта: https://thefllood.github.io/HQEdit_web.

English

This study introduces HQ-Edit, a high-quality instruction-based image editing dataset with around 200,000 edits. Unlike prior approaches relying on attribute guidance or human feedback on building datasets, we devise a scalable data collection pipeline leveraging advanced foundation models, namely GPT-4V and DALL-E 3. To ensure its high quality, diverse examples are first collected online, expanded, and then used to create high-quality diptychs featuring input and output images with detailed text prompts, followed by precise alignment ensured through post-processing. In addition, we propose two evaluation metrics, Alignment and Coherence, to quantitatively assess the quality of image edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and accompanied by comprehensive editing prompts, substantially enhance the capabilities of existing image editing models. For example, an HQ-Edit finetuned InstructPix2Pix can attain state-of-the-art image editing performance, even surpassing those models fine-tuned with human-annotated data. The project page is https://thefllood.github.io/HQEdit_web.

HQ-Edit: Высококачественный набор данных для редактирования изображений на основе инструкций

HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

Аннотация

Support