SuperEdit: Retificando e Facilitando a Supervisão para Edição de Imagens Baseada em Instruções
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
May 5, 2025
Autores: Ming Li, Xin Gu, Fan Chen, Xiaoying Xing, Longyin Wen, Chen Chen, Sijie Zhu
cs.AI
Resumo
Devido aos desafios de coletar manualmente dados de edição precisos, os conjuntos de dados existentes são tipicamente construídos usando vários métodos automatizados, resultando em sinais de supervisão ruidosos causados pela incompatibilidade entre as instruções de edição e os pares de imagens original-editada. Esforços recentes tentam melhorar os modelos de edição por meio da geração de imagens editadas de maior qualidade, pré-treinamento em tarefas de reconhecimento ou pela introdução de modelos de visão e linguagem (VLMs), mas falham em resolver essa questão fundamental. Neste artigo, oferecemos uma solução inovadora ao construir instruções de edição mais eficazes para pares de imagens dados. Isso inclui retificar as instruções de edição para melhor alinhá-las com os pares de imagens original-editada e usar instruções de edição contrastantes para aprimorar ainda mais sua eficácia. Especificamente, descobrimos que os modelos de edição exibem atributos de geração específicos em diferentes etapas de inferência, independentemente do texto. Com base nesses atributos prévios, definimos um guia unificado para VLMs retificar as instruções de edição. No entanto, existem alguns cenários de edição desafiadores que não podem ser resolvidos apenas com instruções retificadas. Para isso, construímos ainda mais sinais de supervisão contrastantes com instruções positivas e negativas e os introduzimos no treinamento do modelo usando a função de perda tripla, facilitando assim ainda mais a eficácia da supervisão. Nosso método não requer os módulos VLM ou tarefas de pré-treinamento usados em trabalhos anteriores, oferecendo uma maneira mais direta e eficiente de fornecer melhores sinais de supervisão e fornecendo uma solução nova, simples e eficaz para a edição de imagens baseada em instruções. Os resultados em vários benchmarks demonstram que nosso método supera significativamente as abordagens existentes. Em comparação com o SOTA anterior, SmartEdit, alcançamos melhorias de 9,19% no benchmark Real-Edit com 30 vezes menos dados de treinamento e um tamanho de modelo 13 vezes menor.
English
Due to the challenges of manually collecting accurate editing data, existing
datasets are typically constructed using various automated methods, leading to
noisy supervision signals caused by the mismatch between editing instructions
and original-edited image pairs. Recent efforts attempt to improve editing
models through generating higher-quality edited images, pre-training on
recognition tasks, or introducing vision-language models (VLMs) but fail to
resolve this fundamental issue. In this paper, we offer a novel solution by
constructing more effective editing instructions for given image pairs. This
includes rectifying the editing instructions to better align with the
original-edited image pairs and using contrastive editing instructions to
further enhance their effectiveness. Specifically, we find that editing models
exhibit specific generation attributes at different inference steps,
independent of the text. Based on these prior attributes, we define a unified
guide for VLMs to rectify editing instructions. However, there are some
challenging editing scenarios that cannot be resolved solely with rectified
instructions. To this end, we further construct contrastive supervision signals
with positive and negative instructions and introduce them into the model
training using triplet loss, thereby further facilitating supervision
effectiveness. Our method does not require the VLM modules or pre-training
tasks used in previous work, offering a more direct and efficient way to
provide better supervision signals, and providing a novel, simple, and
effective solution for instruction-based image editing. Results on multiple
benchmarks demonstrate that our method significantly outperforms existing
approaches. Compared with previous SOTA SmartEdit, we achieve 9.19%
improvements on the Real-Edit benchmark with 30x less training data and 13x
smaller model size.