HQ-Edit: Ein hochwertiger Datensatz für die bildbasierte Bearbeitung von Anweisungen
HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing
April 15, 2024
Autoren: Mude Hui, Siwei Yang, Bingchen Zhao, Yichun Shi, Heng Wang, Peng Wang, Yuyin Zhou, Cihang Xie
cs.AI
Zusammenfassung
Diese Studie stellt HQ-Edit vor, ein hochwertiges instruktionsbasiertes Bildbearbeitungsdatenset mit rund 200.000 Bearbeitungen. Im Gegensatz zu früheren Ansätzen, die auf Attributanleitung oder menschlichem Feedback beim Aufbau von Datensätzen beruhen, haben wir eine skalierbare Datensammlungspipeline entwickelt, die auf fortschrittlichen Grundlagenmodellen basiert, nämlich GPT-4V und DALL-E 3. Um seine hohe Qualität sicherzustellen, werden zunächst vielfältige Beispiele online gesammelt, erweitert und dann verwendet, um hochwertige Diptychen mit Eingabe- und Ausgabe-Bildern sowie detaillierten Textanweisungen zu erstellen, gefolgt von einer präzisen Ausrichtung, die durch die Nachbearbeitung sichergestellt wird. Darüber hinaus schlagen wir zwei Bewertungsmetriken, Ausrichtung und Kohärenz, vor, um die Qualität von Bildbearbeitungspaaren quantitativ mithilfe von GPT-4V zu bewerten. HQ-Edits hochauflösende Bilder, reich an Details und begleitet von umfassenden Bearbeitungsanweisungen, verbessern erheblich die Fähigkeiten bestehender Bildbearbeitungsmodelle. Beispielsweise kann ein mit HQ-Edit feinabgestimmtes InstructPix2Pix eine Bildbearbeitungsleistung auf dem neuesten Stand der Technik erreichen, sogar diejenigen Modelle übertreffen, die mit menschlich annotierten Daten feinabgestimmt wurden. Die Projektseite ist https://thefllood.github.io/HQEdit_web.
English
This study introduces HQ-Edit, a high-quality instruction-based image editing
dataset with around 200,000 edits. Unlike prior approaches relying on attribute
guidance or human feedback on building datasets, we devise a scalable data
collection pipeline leveraging advanced foundation models, namely GPT-4V and
DALL-E 3. To ensure its high quality, diverse examples are first collected
online, expanded, and then used to create high-quality diptychs featuring input
and output images with detailed text prompts, followed by precise alignment
ensured through post-processing. In addition, we propose two evaluation
metrics, Alignment and Coherence, to quantitatively assess the quality of image
edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and
accompanied by comprehensive editing prompts, substantially enhance the
capabilities of existing image editing models. For example, an HQ-Edit
finetuned InstructPix2Pix can attain state-of-the-art image editing
performance, even surpassing those models fine-tuned with human-annotated data.
The project page is https://thefllood.github.io/HQEdit_web.Summary
AI-Generated Summary