SuperEdit : Rectification et facilitation de la supervision pour l'édition d'images basée sur des instructions
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
May 5, 2025
Auteurs: Ming Li, Xin Gu, Fan Chen, Xiaoying Xing, Longyin Wen, Chen Chen, Sijie Zhu
cs.AI
Résumé
En raison des difficultés liées à la collecte manuelle de données d'édition précises, les ensembles de données existants sont généralement construits à l'aide de diverses méthodes automatisées, ce qui entraîne des signaux de supervision bruités dus à l'inadéquation entre les instructions d'édition et les paires d'images originales-modifiées. Les efforts récents tentent d'améliorer les modèles d'édition en générant des images modifiées de meilleure qualité, en effectuant un pré-entraînement sur des tâches de reconnaissance, ou en introduisant des modèles vision-langage (VLMs), mais échouent à résoudre ce problème fondamental. Dans cet article, nous proposons une solution novatrice en construisant des instructions d'édition plus efficaces pour des paires d'images données. Cela inclut la rectification des instructions d'édition pour mieux les aligner avec les paires d'images originales-modifiées et l'utilisation d'instructions d'édition contrastées pour en renforcer l'efficacité. Plus précisément, nous constatons que les modèles d'édition présentent des attributs de génération spécifiques à différentes étapes d'inférence, indépendamment du texte. Sur la base de ces attributs préalables, nous définissons un guide unifié pour les VLMs afin de rectifier les instructions d'édition. Cependant, certains scénarios d'édition complexes ne peuvent être résolus uniquement avec des instructions rectifiées. À cette fin, nous construisons en outre des signaux de supervision contrastés avec des instructions positives et négatives et les introduisons dans l'entraînement du modèle en utilisant la perte triplet, améliorant ainsi l'efficacité de la supervision. Notre méthode ne nécessite pas les modules VLM ou les tâches de pré-entraînement utilisés dans les travaux précédents, offrant une manière plus directe et efficace de fournir de meilleurs signaux de supervision, et proposant une solution novatrice, simple et efficace pour l'édition d'images basée sur des instructions. Les résultats sur plusieurs benchmarks montrent que notre méthode surpasse significativement les approches existantes. Par rapport au précédent SOTA SmartEdit, nous obtenons une amélioration de 9,19 % sur le benchmark Real-Edit avec 30 fois moins de données d'entraînement et une taille de modèle 13 fois plus petite.
English
Due to the challenges of manually collecting accurate editing data, existing
datasets are typically constructed using various automated methods, leading to
noisy supervision signals caused by the mismatch between editing instructions
and original-edited image pairs. Recent efforts attempt to improve editing
models through generating higher-quality edited images, pre-training on
recognition tasks, or introducing vision-language models (VLMs) but fail to
resolve this fundamental issue. In this paper, we offer a novel solution by
constructing more effective editing instructions for given image pairs. This
includes rectifying the editing instructions to better align with the
original-edited image pairs and using contrastive editing instructions to
further enhance their effectiveness. Specifically, we find that editing models
exhibit specific generation attributes at different inference steps,
independent of the text. Based on these prior attributes, we define a unified
guide for VLMs to rectify editing instructions. However, there are some
challenging editing scenarios that cannot be resolved solely with rectified
instructions. To this end, we further construct contrastive supervision signals
with positive and negative instructions and introduce them into the model
training using triplet loss, thereby further facilitating supervision
effectiveness. Our method does not require the VLM modules or pre-training
tasks used in previous work, offering a more direct and efficient way to
provide better supervision signals, and providing a novel, simple, and
effective solution for instruction-based image editing. Results on multiple
benchmarks demonstrate that our method significantly outperforms existing
approaches. Compared with previous SOTA SmartEdit, we achieve 9.19%
improvements on the Real-Edit benchmark with 30x less training data and 13x
smaller model size.Summary
AI-Generated Summary