RefEdit: Een Benchmark en Methode voor het Verbeteren van Instructiegebaseerde Afbeeldingsbewerkingsmodellen op Basis van Verwijzende Uitdrukkingen
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
June 3, 2025
Auteurs: Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral
cs.AI
Samenvatting
Ondanks recente vooruitgang in inversie en instructiegebaseerde beeldbewerking,
excelleren bestaande benaderingen vooral bij het bewerken van enkele, prominente objecten,
maar hebben ze aanzienlijke moeite wanneer ze worden toegepast op complexe scènes met meerdere entiteiten.
Om deze kloof te kwantificeren, introduceren we eerst RefEdit-Bench, een rigoureus real-world benchmark
gebaseerd op RefCOCO, waar zelfs basismodellen die op miljoenen voorbeelden zijn getraind slecht presteren.
Om deze beperking te overwinnen, introduceren we RefEdit — een instructiegebaseerd bewerkingsmodel
getraind op onze schaalbare synthetische datageneratiepijplijn. Onze RefEdit, getraind op slechts 20.000
bewerkingstriplets, presteert beter dan de Flux/SD3-modelgebaseerde basismodellen die op miljoenen
data zijn getraind. Uitgebreide evaluaties op verschillende benchmarks tonen aan dat ons model niet
alleen uitblinkt in taken met verwijzingsexpressies, maar ook de prestaties op traditionele benchmarks
verbetert, waarbij het state-of-the-art resultaten behaalt die vergelijkbaar zijn met closed-source methoden.
We maken data \& checkpoint beschikbaar voor reproduceerbaarheid.
English
Despite recent advances in inversion and instruction-based image editing,
existing approaches primarily excel at editing single, prominent objects but
significantly struggle when applied to complex scenes containing multiple
entities. To quantify this gap, we first introduce RefEdit-Bench, a rigorous
real-world benchmark rooted in RefCOCO, where even baselines trained on
millions of samples perform poorly. To overcome this limitation, we introduce
RefEdit -- an instruction-based editing model trained on our scalable synthetic
data generation pipeline. Our RefEdit, trained on only 20,000 editing triplets,
outperforms the Flux/SD3 model-based baselines trained on millions of data.
Extensive evaluations across various benchmarks demonstrate that our model not
only excels in referring expression tasks but also enhances performance on
traditional benchmarks, achieving state-of-the-art results comparable to
closed-source methods. We release data \& checkpoint for reproducibility.