UIP2P : Édition d'Images basée sur des Instructions non Supervisée via Cycle d'Édition de la Cohérence
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency
December 19, 2024
Auteurs: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI
Résumé
Nous proposons un modèle non supervisé pour l'édition d'images basée sur des instructions qui élimine le besoin d'images éditées de référence pendant l'entraînement. Les méthodes supervisées existantes dépendent de jeux de données contenant des triplets d'image d'entrée, d'image éditée et d'instruction d'édition. Ceux-ci sont générés soit par des méthodes d'édition existantes, soit par des annotations humaines, introduisant des biais et limitant leur capacité de généralisation. Notre méthode relève ces défis en introduisant un mécanisme d'édition novateur appelé Cohérence d'Édition Cyclique (CEC), qui applique des éditions avant et arrière en une étape d'entraînement et impose une cohérence dans les espaces d'image et d'attention. Cela nous permet de contourner le besoin d'images éditées de référence et de débloquer l'entraînement pour la première fois sur des jeux de données comprenant soit des paires image-légende réelles, soit des triplets image-légende-édition. Nous montrons empiriquement que notre technique non supervisée fonctionne mieux sur une gamme plus large d'éditions avec une haute fidélité et précision. En éliminant le besoin de jeux de données préexistants de triplets, en réduisant les biais associés aux méthodes supervisées et en proposant le CEC, notre travail représente une avancée significative dans le déblocage de la mise à l'échelle de l'édition d'images basée sur des instructions.
English
We propose an unsupervised model for instruction-based image editing that
eliminates the need for ground-truth edited images during training. Existing
supervised methods depend on datasets containing triplets of input image,
edited image, and edit instruction. These are generated by either existing
editing methods or human-annotations, which introduce biases and limit their
generalization ability. Our method addresses these challenges by introducing a
novel editing mechanism called Cycle Edit Consistency (CEC), which applies
forward and backward edits in one training step and enforces consistency in
image and attention spaces. This allows us to bypass the need for ground-truth
edited images and unlock training for the first time on datasets comprising
either real image-caption pairs or image-caption-edit triplets. We empirically
show that our unsupervised technique performs better across a broader range of
edits with high fidelity and precision. By eliminating the need for
pre-existing datasets of triplets, reducing biases associated with supervised
methods, and proposing CEC, our work represents a significant advancement in
unblocking scaling of instruction-based image editing.Summary
AI-Generated Summary