HQ-Edit: Ein hochwertiger Datensatz für die bildbasierte Bearbeitung von Anweisungen

papers.abstract

Diese Studie stellt HQ-Edit vor, ein hochwertiges instruktionsbasiertes Bildbearbeitungsdatenset mit rund 200.000 Bearbeitungen. Im Gegensatz zu früheren Ansätzen, die auf Attributanleitung oder menschlichem Feedback beim Aufbau von Datensätzen beruhen, haben wir eine skalierbare Datensammlungspipeline entwickelt, die auf fortschrittlichen Grundlagenmodellen basiert, nämlich GPT-4V und DALL-E 3. Um seine hohe Qualität sicherzustellen, werden zunächst vielfältige Beispiele online gesammelt, erweitert und dann verwendet, um hochwertige Diptychen mit Eingabe- und Ausgabe-Bildern sowie detaillierten Textanweisungen zu erstellen, gefolgt von einer präzisen Ausrichtung, die durch die Nachbearbeitung sichergestellt wird. Darüber hinaus schlagen wir zwei Bewertungsmetriken, Ausrichtung und Kohärenz, vor, um die Qualität von Bildbearbeitungspaaren quantitativ mithilfe von GPT-4V zu bewerten. HQ-Edits hochauflösende Bilder, reich an Details und begleitet von umfassenden Bearbeitungsanweisungen, verbessern erheblich die Fähigkeiten bestehender Bildbearbeitungsmodelle. Beispielsweise kann ein mit HQ-Edit feinabgestimmtes InstructPix2Pix eine Bildbearbeitungsleistung auf dem neuesten Stand der Technik erreichen, sogar diejenigen Modelle übertreffen, die mit menschlich annotierten Daten feinabgestimmt wurden. Die Projektseite ist https://thefllood.github.io/HQEdit_web.

English

This study introduces HQ-Edit, a high-quality instruction-based image editing dataset with around 200,000 edits. Unlike prior approaches relying on attribute guidance or human feedback on building datasets, we devise a scalable data collection pipeline leveraging advanced foundation models, namely GPT-4V and DALL-E 3. To ensure its high quality, diverse examples are first collected online, expanded, and then used to create high-quality diptychs featuring input and output images with detailed text prompts, followed by precise alignment ensured through post-processing. In addition, we propose two evaluation metrics, Alignment and Coherence, to quantitatively assess the quality of image edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and accompanied by comprehensive editing prompts, substantially enhance the capabilities of existing image editing models. For example, an HQ-Edit finetuned InstructPix2Pix can attain state-of-the-art image editing performance, even surpassing those models fine-tuned with human-annotated data. The project page is https://thefllood.github.io/HQEdit_web.

HQ-Edit: Ein hochwertiger Datensatz für die bildbasierte Bearbeitung von Anweisungen

HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

papers.abstract

Support