ChatPaper.aiChatPaper

UIP2P: Unbeaufsichtigte instruktionsbasierte Bildbearbeitung mittels Zyklus-Edit-Konsistenz

UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

December 19, 2024
Autoren: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI

Zusammenfassung

Wir schlagen ein unüberwachtes Modell für die anweisungsbasierte Bildbearbeitung vor, das auf die Notwendigkeit von Ground-Truth bearbeiteten Bildern während des Trainings verzichtet. Bestehende überwachte Methoden sind auf Datensätze angewiesen, die Triplets aus Eingabebild, bearbeitetem Bild und Bearbeitungsanweisung enthalten. Diese werden entweder von bestehenden Bearbeitungsmethoden oder menschlichen Annotationen generiert, was zu Verzerrungen führt und ihre Verallgemeinerungsfähigkeit einschränkt. Unser Ansatz begegnet diesen Herausforderungen, indem er einen neuartigen Bearbeitungsmechanismus namens Zyklische Bearbeitungskonsistenz (CEC) einführt, der Vorwärts- und Rückwärtsbearbeitungen in einem Trainingsschritt anwendet und Konsistenz in Bild- und Aufmerksamkeitsräumen durchsetzt. Dies ermöglicht es uns, auf Ground-Truth bearbeitete Bilder zu verzichten und das Training erstmals auf Datensätzen durchzuführen, die entweder aus echten Bildunterschriften oder Bildunterschrift-Bearbeitungs-Triplets bestehen. Wir zeigen empirisch, dass unsere unüberwachte Technik über einen breiteren Bereich von Bearbeitungen hinweg mit hoher Treue und Präzision besser abschneidet. Durch die Beseitigung der Notwendigkeit von vorhandenen Datensätzen von Triplets, die Reduzierung von Verzerrungen, die mit überwachten Methoden verbunden sind, und die Einführung von CEC repräsentiert unsere Arbeit einen bedeutenden Fortschritt bei der Skalierung der anweisungsbasierten Bildbearbeitung.
English
We propose an unsupervised model for instruction-based image editing that eliminates the need for ground-truth edited images during training. Existing supervised methods depend on datasets containing triplets of input image, edited image, and edit instruction. These are generated by either existing editing methods or human-annotations, which introduce biases and limit their generalization ability. Our method addresses these challenges by introducing a novel editing mechanism called Cycle Edit Consistency (CEC), which applies forward and backward edits in one training step and enforces consistency in image and attention spaces. This allows us to bypass the need for ground-truth edited images and unlock training for the first time on datasets comprising either real image-caption pairs or image-caption-edit triplets. We empirically show that our unsupervised technique performs better across a broader range of edits with high fidelity and precision. By eliminating the need for pre-existing datasets of triplets, reducing biases associated with supervised methods, and proposing CEC, our work represents a significant advancement in unblocking scaling of instruction-based image editing.

Summary

AI-Generated Summary

PDF53December 20, 2024