ChatPaper.aiChatPaper

ProEdit: Edición Basada en Inversión a Partir de Indicaciones Hecha Correctamente

ProEdit: Inversion-based Editing From Prompts Done Right

December 26, 2025
Autores: Zhi Ouyang, Dian Zheng, Xiao-Ming Wu, Jian-Jian Jiang, Kun-Yu Lin, Jingke Meng, Wei-Shi Zheng
cs.AI

Resumen

La edición visual basada en inversión ofrece un método eficaz y libre de entrenamiento para editar una imagen o un video basándose en instrucciones del usuario. Los métodos existentes suelen inyectar información de la imagen fuente durante el proceso de muestreo para mantener la coherencia de la edición. Sin embargo, esta estrategia de muestreo depende excesivamente de la información fuente, lo que afecta negativamente a las ediciones en la imagen objetivo (por ejemplo, fallando al cambiar atributos del sujeto como la pose, el número o el color según las instrucciones). En este trabajo, proponemos ProEdit para abordar este problema tanto en el aspecto de atención como en el latente. En el aspecto de atención, introducimos KV-mix, que combina las características KV de la fuente y el objetivo en la región editada, mitigando la influencia de la imagen fuente en la región de edición mientras mantiene la coherencia del fondo. En el aspecto latente, proponemos Latents-Shift, que perturba la región editada del latente fuente, eliminando la influencia del latente invertido en el muestreo. Experimentos exhaustivos en varios benchmarks de edición de imágenes y videos demuestran que nuestro método alcanza un rendimiento de vanguardia (SOTA). Además, nuestro diseño es plug-and-play, pudiendo integrarse perfectamente en métodos existentes de inversión y edición, como RF-Solver, FireFlow y UniEdit.
English
Inversion-based visual editing provides an effective and training-free way to edit an image or a video based on user instructions. Existing methods typically inject source image information during the sampling process to maintain editing consistency. However, this sampling strategy overly relies on source information, which negatively affects the edits in the target image (e.g., failing to change the subject's atributes like pose, number, or color as instructed). In this work, we propose ProEdit to address this issue both in the attention and the latent aspects. In the attention aspect, we introduce KV-mix, which mixes KV features of the source and the target in the edited region, mitigating the influence of the source image on the editing region while maintaining background consistency. In the latent aspect, we propose Latents-Shift, which perturbs the edited region of the source latent, eliminating the influence of the inverted latent on the sampling. Extensive experiments on several image and video editing benchmarks demonstrate that our method achieves SOTA performance. In addition, our design is plug-and-play, which can be seamlessly integrated into existing inversion and editing methods, such as RF-Solver, FireFlow and UniEdit.
PDF121December 30, 2025