RefEdit : Un benchmark et une méthode pour améliorer les modèles d'édition d'images basés sur des instructions avec des expressions référentielles
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
June 3, 2025
Auteurs: Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral
cs.AI
Résumé
Malgré les récents progrès en matière d'inversion et d'édition d'images basée sur des instructions, les approches existantes excellent principalement dans l'édition d'objets uniques et proéminents, mais rencontrent des difficultés significatives lorsqu'elles sont appliquées à des scènes complexes contenant plusieurs entités. Pour quantifier cet écart, nous introduisons d'abord RefEdit-Bench, un benchmark rigoureux ancré dans le monde réel et basé sur RefCOCO, où même les modèles de référence entraînés sur des millions d'échantillons obtiennent de faibles performances. Pour surmonter cette limitation, nous présentons RefEdit — un modèle d'édition basé sur des instructions entraîné sur notre pipeline de génération de données synthétiques évolutif. Notre modèle RefEdit, entraîné sur seulement 20 000 triplets d'édition, surpasse les modèles de référence basés sur Flux/SD3 entraînés sur des millions de données. Des évaluations approfondies sur divers benchmarks démontrent que notre modèle excelle non seulement dans les tâches d'expression référentielle, mais améliore également les performances sur les benchmarks traditionnels, atteignant des résultats de pointe comparables aux méthodes propriétaires. Nous publions les données et les points de contrôle pour assurer la reproductibilité.
English
Despite recent advances in inversion and instruction-based image editing,
existing approaches primarily excel at editing single, prominent objects but
significantly struggle when applied to complex scenes containing multiple
entities. To quantify this gap, we first introduce RefEdit-Bench, a rigorous
real-world benchmark rooted in RefCOCO, where even baselines trained on
millions of samples perform poorly. To overcome this limitation, we introduce
RefEdit -- an instruction-based editing model trained on our scalable synthetic
data generation pipeline. Our RefEdit, trained on only 20,000 editing triplets,
outperforms the Flux/SD3 model-based baselines trained on millions of data.
Extensive evaluations across various benchmarks demonstrate that our model not
only excels in referring expression tasks but also enhances performance on
traditional benchmarks, achieving state-of-the-art results comparable to
closed-source methods. We release data \& checkpoint for reproducibility.