ChatPaper.aiChatPaper

SuperEdit: 지시 기반 이미지 편집을 위한 감독의 정교화 및 용이화

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

May 5, 2025
저자: Ming Li, Xin Gu, Fan Chen, Xiaoying Xing, Longyin Wen, Chen Chen, Sijie Zhu
cs.AI

초록

정확한 편집 데이터를 수동으로 수집하는 데 어려움이 있기 때문에, 기존 데이터셋은 일반적으로 다양한 자동화된 방법을 사용하여 구축됩니다. 이로 인해 편집 지침과 원본-편집 이미지 쌍 간의 불일치로 인해 노이즈가 포함된 감독 신호가 발생합니다. 최근 연구에서는 더 높은 품질의 편집된 이미지를 생성하거나, 인식 작업에 대한 사전 학습을 수행하거나, 시각-언어 모델(VLMs)을 도입하여 편집 모델을 개선하려는 시도가 있었지만, 이러한 근본적인 문제를 해결하지 못했습니다. 본 논문에서는 주어진 이미지 쌍에 대해 더 효과적인 편집 지침을 구축함으로써 새로운 해결책을 제시합니다. 여기에는 편집 지침을 수정하여 원본-편집 이미지 쌍과 더 잘 일치시키고, 대조적 편집 지침을 사용하여 그 효과를 더욱 강화하는 것이 포함됩니다. 구체적으로, 우리는 편집 모델이 텍스트와 무관하게 다양한 추론 단계에서 특정 생성 속성을 나타낸다는 것을 발견했습니다. 이러한 사전 속성을 기반으로, 우리는 VLMs에 대한 통일된 가이드를 정의하여 편집 지침을 수정합니다. 그러나 수정된 지침만으로는 해결할 수 없는 어려운 편집 시나리오도 있습니다. 이를 위해, 우리는 긍정적 및 부정적 지침을 포함한 대조적 감독 신호를 구축하고, 이를 트리플렛 손실을 사용하여 모델 학습에 도입함으로써 감독 효과를 더욱 촉진합니다. 우리의 방법은 이전 연구에서 사용된 VLM 모듈이나 사전 학습 작업을 필요로 하지 않으며, 더 나은 감독 신호를 제공하는 더 직접적이고 효율적인 방법을 제공함으로써, 지침 기반 이미지 편집을 위한 새롭고 간단하며 효과적인 해결책을 제시합니다. 여러 벤치마크에서의 결과는 우리의 방법이 기존 접근법을 크게 능가함을 보여줍니다. 이전 SOTA인 SmartEdit과 비교하여, 우리는 Real-Edit 벤치마크에서 9.19%의 개선을 달성했으며, 학습 데이터는 30배 적고 모델 크기는 13배 더 작습니다.
English
Due to the challenges of manually collecting accurate editing data, existing datasets are typically constructed using various automated methods, leading to noisy supervision signals caused by the mismatch between editing instructions and original-edited image pairs. Recent efforts attempt to improve editing models through generating higher-quality edited images, pre-training on recognition tasks, or introducing vision-language models (VLMs) but fail to resolve this fundamental issue. In this paper, we offer a novel solution by constructing more effective editing instructions for given image pairs. This includes rectifying the editing instructions to better align with the original-edited image pairs and using contrastive editing instructions to further enhance their effectiveness. Specifically, we find that editing models exhibit specific generation attributes at different inference steps, independent of the text. Based on these prior attributes, we define a unified guide for VLMs to rectify editing instructions. However, there are some challenging editing scenarios that cannot be resolved solely with rectified instructions. To this end, we further construct contrastive supervision signals with positive and negative instructions and introduce them into the model training using triplet loss, thereby further facilitating supervision effectiveness. Our method does not require the VLM modules or pre-training tasks used in previous work, offering a more direct and efficient way to provide better supervision signals, and providing a novel, simple, and effective solution for instruction-based image editing. Results on multiple benchmarks demonstrate that our method significantly outperforms existing approaches. Compared with previous SOTA SmartEdit, we achieve 9.19% improvements on the Real-Edit benchmark with 30x less training data and 13x smaller model size.

Summary

AI-Generated Summary

PDF81May 6, 2025