RefEdit: Un Benchmark e un Metodo per Migliorare i Modelli di Modifica delle Immagini Basati su Istruzioni con Espressioni Referenziali
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
June 3, 2025
Autori: Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral
cs.AI
Abstract
Nonostante i recenti progressi nell'inversione e nella modifica delle immagini basata su istruzioni, gli approcci esistenti eccellono principalmente nella modifica di singoli oggetti prominenti, ma incontrano notevoli difficoltà quando applicati a scene complesse contenenti più entità. Per quantificare questo divario, introduciamo innanzitutto RefEdit-Bench, un rigoroso benchmark del mondo reale basato su RefCOCO, dove persino i modelli di base addestrati su milioni di campioni ottengono risultati scarsi. Per superare questa limitazione, presentiamo RefEdit — un modello di modifica basato su istruzioni addestrato sulla nostra pipeline scalabile di generazione di dati sintetici. Il nostro RefEdit, addestrato su soli 20.000 triplet di modifica, supera i modelli di base basati su Flux/SD3 addestrati su milioni di dati. Valutazioni estensive su vari benchmark dimostrano che il nostro modello non solo eccelle nei compiti di espressione referenziale, ma migliora anche le prestazioni sui benchmark tradizionali, raggiungendo risultati all'avanguardia comparabili ai metodi closed-source. Rilasciamo dati e checkpoint per garantire la riproducibilità.
English
Despite recent advances in inversion and instruction-based image editing,
existing approaches primarily excel at editing single, prominent objects but
significantly struggle when applied to complex scenes containing multiple
entities. To quantify this gap, we first introduce RefEdit-Bench, a rigorous
real-world benchmark rooted in RefCOCO, where even baselines trained on
millions of samples perform poorly. To overcome this limitation, we introduce
RefEdit -- an instruction-based editing model trained on our scalable synthetic
data generation pipeline. Our RefEdit, trained on only 20,000 editing triplets,
outperforms the Flux/SD3 model-based baselines trained on millions of data.
Extensive evaluations across various benchmarks demonstrate that our model not
only excels in referring expression tasks but also enhances performance on
traditional benchmarks, achieving state-of-the-art results comparable to
closed-source methods. We release data \& checkpoint for reproducibility.