ChatPaper.aiChatPaper

UIP2P : Édition d'Images basée sur des Instructions non Supervisée via Cycle d'Édition de la Cohérence

UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

December 19, 2024
Auteurs: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI

Résumé

Nous proposons un modèle non supervisé pour l'édition d'images basée sur des instructions qui élimine le besoin d'images éditées de référence pendant l'entraînement. Les méthodes supervisées existantes dépendent de jeux de données contenant des triplets d'image d'entrée, d'image éditée et d'instruction d'édition. Ceux-ci sont générés soit par des méthodes d'édition existantes, soit par des annotations humaines, introduisant des biais et limitant leur capacité de généralisation. Notre méthode relève ces défis en introduisant un mécanisme d'édition novateur appelé Cohérence d'Édition Cyclique (CEC), qui applique des éditions avant et arrière en une étape d'entraînement et impose une cohérence dans les espaces d'image et d'attention. Cela nous permet de contourner le besoin d'images éditées de référence et de débloquer l'entraînement pour la première fois sur des jeux de données comprenant soit des paires image-légende réelles, soit des triplets image-légende-édition. Nous montrons empiriquement que notre technique non supervisée fonctionne mieux sur une gamme plus large d'éditions avec une haute fidélité et précision. En éliminant le besoin de jeux de données préexistants de triplets, en réduisant les biais associés aux méthodes supervisées et en proposant le CEC, notre travail représente une avancée significative dans le déblocage de la mise à l'échelle de l'édition d'images basée sur des instructions.
English
We propose an unsupervised model for instruction-based image editing that eliminates the need for ground-truth edited images during training. Existing supervised methods depend on datasets containing triplets of input image, edited image, and edit instruction. These are generated by either existing editing methods or human-annotations, which introduce biases and limit their generalization ability. Our method addresses these challenges by introducing a novel editing mechanism called Cycle Edit Consistency (CEC), which applies forward and backward edits in one training step and enforces consistency in image and attention spaces. This allows us to bypass the need for ground-truth edited images and unlock training for the first time on datasets comprising either real image-caption pairs or image-caption-edit triplets. We empirically show that our unsupervised technique performs better across a broader range of edits with high fidelity and precision. By eliminating the need for pre-existing datasets of triplets, reducing biases associated with supervised methods, and proposing CEC, our work represents a significant advancement in unblocking scaling of instruction-based image editing.

Summary

AI-Generated Summary

PDF53December 20, 2024