ChatPaper.aiChatPaper

UIP2P: Ongesuperviseerde Instructiegebaseerde Beeldbewerking via Cyclusbewerking Consistentie

UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

December 19, 2024
Auteurs: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI

Samenvatting

We stellen een ongesuperviseerd model voor voor op instructies gebaseerde beeldbewerking dat het gebruik van bewerkte afbeeldingen met bekende uitkomst tijdens training overbodig maakt. Bestaande supervisietechnieken zijn afhankelijk van datasets die triplets bevatten van invoerbeeld, bewerkt beeld en bewerkingsinstructie. Deze worden gegenereerd door bestaande bewerkingsmethoden of menselijke annotaties, wat vooroordelen introduceert en hun generalisatievermogen beperkt. Onze methode pakt deze uitdagingen aan door een nieuw bewerkingsmechanisme te introduceren genaamd Cycle Edit Consistency (CEC), dat voorwaartse en achterwaartse bewerkingen toepast in één trainingsstap en consistentie afdwingt in beeld- en aandachtsruimtes. Dit stelt ons in staat om het gebruik van bewerkte afbeeldingen met bekende uitkomst te omzeilen en voor het eerst training mogelijk te maken op datasets bestaande uit ofwel echte afbeelding-onderschriftparen of afbeelding-onderschrift-bewerkings triplets. We tonen empirisch aan dat onze ongesuperviseerde techniek beter presteert over een breder scala van bewerkingen met een hoge nauwkeurigheid en precisie. Door de noodzaak voor vooraf bestaande datasets van triplets te elimineren, vooroordelen geassocieerd met supervisietechnieken te verminderen, en CEC voor te stellen, vertegenwoordigt ons werk een significante vooruitgang in het deblokkeren van schaalvergroting van op instructies gebaseerde beeldbewerking.
English
We propose an unsupervised model for instruction-based image editing that eliminates the need for ground-truth edited images during training. Existing supervised methods depend on datasets containing triplets of input image, edited image, and edit instruction. These are generated by either existing editing methods or human-annotations, which introduce biases and limit their generalization ability. Our method addresses these challenges by introducing a novel editing mechanism called Cycle Edit Consistency (CEC), which applies forward and backward edits in one training step and enforces consistency in image and attention spaces. This allows us to bypass the need for ground-truth edited images and unlock training for the first time on datasets comprising either real image-caption pairs or image-caption-edit triplets. We empirically show that our unsupervised technique performs better across a broader range of edits with high fidelity and precision. By eliminating the need for pre-existing datasets of triplets, reducing biases associated with supervised methods, and proposing CEC, our work represents a significant advancement in unblocking scaling of instruction-based image editing.
PDF53December 20, 2024