ChatPaper.aiChatPaper

ProEdit : L'édition par inversion basée sur des invites, enfin maîtrisée

ProEdit: Inversion-based Editing From Prompts Done Right

December 26, 2025
papers.authors: Zhi Ouyang, Dian Zheng, Xiao-Ming Wu, Jian-Jian Jiang, Kun-Yu Lin, Jingke Meng, Wei-Shi Zheng
cs.AI

papers.abstract

L'édition visuelle par inversion offre une méthode efficace et sans apprentissage pour modifier une image ou une vidéo selon les instructions de l'utilisateur. Les méthodes existantes injectent généralement des informations de l'image source durant le processus d'échantillonnage pour préserver la cohérence de l'édition. Cependant, cette stratégie d'échantillonnage repose excessivement sur les informations sources, ce qui affecte négativement les modifications dans l'image cible (par exemple, en échouant à changer les attributs du sujet comme la pose, le nombre ou la couleur comme demandé). Dans ce travail, nous proposons ProEdit pour résoudre ce problème à la fois au niveau de l'attention et des latentes. Pour l'attention, nous introduisons KV-mix, qui mélange les caractéristiques KV des régions source et cible dans la zone éditée, atténuant l'influence de l'image source sur cette zone tout en maintenant la cohérence de l'arrière-plan. Pour les latentes, nous proposons Latents-Shift, qui perturbe la zone éditée de la latente source, éliminant l'influence de la latente inversée sur l'échantillonnage. Des expériences approfondies sur plusieurs benchmarks d'édition d'images et de vidéos démontrent que notre méthode atteint des performances à l'état de l'art. De plus, notre conception est plug-and-play et peut être intégrée de manière transparente dans les méthodes d'inversion et d'édition existantes, telles que RF-Solver, FireFlow et UniEdit.
English
Inversion-based visual editing provides an effective and training-free way to edit an image or a video based on user instructions. Existing methods typically inject source image information during the sampling process to maintain editing consistency. However, this sampling strategy overly relies on source information, which negatively affects the edits in the target image (e.g., failing to change the subject's atributes like pose, number, or color as instructed). In this work, we propose ProEdit to address this issue both in the attention and the latent aspects. In the attention aspect, we introduce KV-mix, which mixes KV features of the source and the target in the edited region, mitigating the influence of the source image on the editing region while maintaining background consistency. In the latent aspect, we propose Latents-Shift, which perturbs the edited region of the source latent, eliminating the influence of the inverted latent on the sampling. Extensive experiments on several image and video editing benchmarks demonstrate that our method achieves SOTA performance. In addition, our design is plug-and-play, which can be seamlessly integrated into existing inversion and editing methods, such as RF-Solver, FireFlow and UniEdit.
PDF121December 30, 2025