ProEdit: Inversionsbasierte Bearbeitung aus Prompts – richtig gemacht
ProEdit: Inversion-based Editing From Prompts Done Right
December 26, 2025
papers.authors: Zhi Ouyang, Dian Zheng, Xiao-Ming Wu, Jian-Jian Jiang, Kun-Yu Lin, Jingke Meng, Wei-Shi Zheng
cs.AI
papers.abstract
Inversionsbasierte visuelle Bearbeitung bietet eine effektive und trainingsfreie Möglichkeit, ein Bild oder Video basierend auf Benutzeranweisungen zu bearbeiten. Bestehende Methoden injizieren typischerweise Quellbildinformationen während des Sampling-Prozesses, um die Bearbeitungskonsistenz zu gewährleisten. Diese Sampling-Strategie verlässt sich jedoch zu stark auf die Quellinformationen, was sich negativ auf die Bearbeitungen im Zielbild auswirkt (z.B. Versagen bei der Änderung von Subjektattributen wie Pose, Anzahl oder Farbe gemäß Anweisung). In dieser Arbeit schlagen wir ProEdit vor, um dieses Problem sowohl in der Aufmerksamkeits- als auch in der Latent-Aspekten zu adressieren. Im Aufmerksamkeitsaspekt führen wir KV-Mix ein, das KV-Features der Quelle und des Ziels im bearbeiteten Bereich mischt und so den Einfluss des Quellbilds auf den Bearbeitungsbereich mildert, während die Hintergrundkonsistenz erhalten bleibt. Im Latent-Aspekt schlagen wir Latents-Shift vor, das den bearbeiteten Bereich des Quell-Latents stört und den Einfluss des invertierten Latents auf das Sampling eliminiert. Umfangreiche Experimente mit mehreren Bild- und Video-Bearbeitungsbenchmarks zeigen, dass unsere Methode state-of-the-art Leistung erreicht. Zudem ist unser Design plug-and-play und kann nahtlos in bestehende Inversions- und Bearbeitungsmethoden wie RF-Solver, FireFlow und UniEdit integriert werden.
English
Inversion-based visual editing provides an effective and training-free way to edit an image or a video based on user instructions. Existing methods typically inject source image information during the sampling process to maintain editing consistency. However, this sampling strategy overly relies on source information, which negatively affects the edits in the target image (e.g., failing to change the subject's atributes like pose, number, or color as instructed). In this work, we propose ProEdit to address this issue both in the attention and the latent aspects. In the attention aspect, we introduce KV-mix, which mixes KV features of the source and the target in the edited region, mitigating the influence of the source image on the editing region while maintaining background consistency. In the latent aspect, we propose Latents-Shift, which perturbs the edited region of the source latent, eliminating the influence of the inverted latent on the sampling. Extensive experiments on several image and video editing benchmarks demonstrate that our method achieves SOTA performance. In addition, our design is plug-and-play, which can be seamlessly integrated into existing inversion and editing methods, such as RF-Solver, FireFlow and UniEdit.