ChatPaper.aiChatPaper

ProEdit: プロンプトに基づく逆変換編集の正しいアプローチ

ProEdit: Inversion-based Editing From Prompts Done Right

December 26, 2025
著者: Zhi Ouyang, Dian Zheng, Xiao-Ming Wu, Jian-Jian Jiang, Kun-Yu Lin, Jingke Meng, Wei-Shi Zheng
cs.AI

要旨

逆変換に基づく視覚編集は、ユーザーの指示に基づいて画像や動画を編集する効果的かつ学習不要な手法を提供する。既存手法では通常、編集の一貫性を維持するためにサンプリング過程でソース画像情報を注入する。しかし、このサンプリング戦略はソース情報に過度に依存するため、ターゲット画像の編集に悪影響を及ぼす(例:被写体のポーズや数、色などの属性を指示通りに変更できない)。本研究では、この問題をAttentionとLatentの両面から解決するProEditを提案する。Attentionの側面では、編集領域におけるソースとターゲットのKV特徴を混合するKV-mixを導入し、背景の一貫性を維持しつつ編集領域へのソース画像の影響を軽減する。Latentの側面では、ソース潜在表現の編集領域を摂動させるLatents-Shiftを提案し、サンプリングにおける逆変換潜在表現の影響を除去する。複数の画像・動画編集ベンチマークでの大規模実験により、本手法がSOTA性能を達成することを示す。さらに、当社の設計はプラグアンドプレイ方式であり、RF-Solver、FireFlow、UniEditなどの既存の逆変換・編集手法にシームレスに統合可能である。
English
Inversion-based visual editing provides an effective and training-free way to edit an image or a video based on user instructions. Existing methods typically inject source image information during the sampling process to maintain editing consistency. However, this sampling strategy overly relies on source information, which negatively affects the edits in the target image (e.g., failing to change the subject's atributes like pose, number, or color as instructed). In this work, we propose ProEdit to address this issue both in the attention and the latent aspects. In the attention aspect, we introduce KV-mix, which mixes KV features of the source and the target in the edited region, mitigating the influence of the source image on the editing region while maintaining background consistency. In the latent aspect, we propose Latents-Shift, which perturbs the edited region of the source latent, eliminating the influence of the inverted latent on the sampling. Extensive experiments on several image and video editing benchmarks demonstrate that our method achieves SOTA performance. In addition, our design is plug-and-play, which can be seamlessly integrated into existing inversion and editing methods, such as RF-Solver, FireFlow and UniEdit.
PDF121December 30, 2025