ProEdit: Op Inversie Gebaseerd Bewerken vanuit Prompts, Goed Aangepakt
ProEdit: Inversion-based Editing From Prompts Done Right
December 26, 2025
Auteurs: Zhi Ouyang, Dian Zheng, Xiao-Ming Wu, Jian-Jian Jiang, Kun-Yu Lin, Jingke Meng, Wei-Shi Zheng
cs.AI
Samenvatting
Op inversie gebaseerde visuele bewerking biedt een effectieve en trainingsvrije manier om een afbeelding of video te bewerken op basis van gebruikersinstructies. Bestaande methoden injecteren doorgaans bronafbeeldingsinformatie tijdens het samplingproces om bewerkingsconsistentie te behouden. Deze samplingstrategie vertrouwt echter te veel op broninformatie, wat de bewerkingen in de doelafbeelding negatief beïnvloedt (bijvoorbeeld het niet kunnen wijzigen van de eigenschappen van het onderwerp, zoals houding, aantal of kleur, zoals geïnstrueerd). In dit werk stellen we ProEdit voor om dit probleem zowel op aandacht- als latentieniveau aan te pakken. Op het gebied van aandacht introduceren we KV-mix, dat KV-features van de bron en het doel in het bewerkte gebied mengt, om de invloed van de bronafbeelding op het bewerkingsgebied te verminderen terwijl de achtergrondconsistentie behouden blijft. Op latentieniveau stellen we Latents-Shift voor, dat het bewerkte gebied van de bronlatentie verstoort, waardoor de invloed van de geïnverteerde latentie op de sampling wordt geëlimineerd. Uitgebreide experimenten op verschillende benchmarks voor beeld- en videobewerking tonen aan dat onze methode state-of-the-art prestaties bereikt. Bovendien is ons ontwerp plug-and-play, wat naadloos kan worden geïntegreerd in bestaande inversie- en bewerkingsmethoden, zoals RF-Solver, FireFlow en UniEdit.
English
Inversion-based visual editing provides an effective and training-free way to edit an image or a video based on user instructions. Existing methods typically inject source image information during the sampling process to maintain editing consistency. However, this sampling strategy overly relies on source information, which negatively affects the edits in the target image (e.g., failing to change the subject's atributes like pose, number, or color as instructed). In this work, we propose ProEdit to address this issue both in the attention and the latent aspects. In the attention aspect, we introduce KV-mix, which mixes KV features of the source and the target in the edited region, mitigating the influence of the source image on the editing region while maintaining background consistency. In the latent aspect, we propose Latents-Shift, which perturbs the edited region of the source latent, eliminating the influence of the inverted latent on the sampling. Extensive experiments on several image and video editing benchmarks demonstrate that our method achieves SOTA performance. In addition, our design is plug-and-play, which can be seamlessly integrated into existing inversion and editing methods, such as RF-Solver, FireFlow and UniEdit.