UIP2P: Unbeaufsichtigte instruktionsbasierte Bildbearbeitung mittels Zyklus-Edit-Konsistenz
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency
December 19, 2024
Autoren: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI
Zusammenfassung
Wir schlagen ein unüberwachtes Modell für die anweisungsbasierte Bildbearbeitung vor, das auf die Notwendigkeit von Ground-Truth bearbeiteten Bildern während des Trainings verzichtet. Bestehende überwachte Methoden sind auf Datensätze angewiesen, die Triplets aus Eingabebild, bearbeitetem Bild und Bearbeitungsanweisung enthalten. Diese werden entweder von bestehenden Bearbeitungsmethoden oder menschlichen Annotationen generiert, was zu Verzerrungen führt und ihre Verallgemeinerungsfähigkeit einschränkt. Unser Ansatz begegnet diesen Herausforderungen, indem er einen neuartigen Bearbeitungsmechanismus namens Zyklische Bearbeitungskonsistenz (CEC) einführt, der Vorwärts- und Rückwärtsbearbeitungen in einem Trainingsschritt anwendet und Konsistenz in Bild- und Aufmerksamkeitsräumen durchsetzt. Dies ermöglicht es uns, auf Ground-Truth bearbeitete Bilder zu verzichten und das Training erstmals auf Datensätzen durchzuführen, die entweder aus echten Bildunterschriften oder Bildunterschrift-Bearbeitungs-Triplets bestehen. Wir zeigen empirisch, dass unsere unüberwachte Technik über einen breiteren Bereich von Bearbeitungen hinweg mit hoher Treue und Präzision besser abschneidet. Durch die Beseitigung der Notwendigkeit von vorhandenen Datensätzen von Triplets, die Reduzierung von Verzerrungen, die mit überwachten Methoden verbunden sind, und die Einführung von CEC repräsentiert unsere Arbeit einen bedeutenden Fortschritt bei der Skalierung der anweisungsbasierten Bildbearbeitung.
English
We propose an unsupervised model for instruction-based image editing that
eliminates the need for ground-truth edited images during training. Existing
supervised methods depend on datasets containing triplets of input image,
edited image, and edit instruction. These are generated by either existing
editing methods or human-annotations, which introduce biases and limit their
generalization ability. Our method addresses these challenges by introducing a
novel editing mechanism called Cycle Edit Consistency (CEC), which applies
forward and backward edits in one training step and enforces consistency in
image and attention spaces. This allows us to bypass the need for ground-truth
edited images and unlock training for the first time on datasets comprising
either real image-caption pairs or image-caption-edit triplets. We empirically
show that our unsupervised technique performs better across a broader range of
edits with high fidelity and precision. By eliminating the need for
pre-existing datasets of triplets, reducing biases associated with supervised
methods, and proposing CEC, our work represents a significant advancement in
unblocking scaling of instruction-based image editing.Summary
AI-Generated Summary