RefEdit: Ein Benchmark und eine Methode zur Verbesserung von instruktionsbasierten Bildbearbeitungsmodellen bei referenziellen Ausdrücken
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
June 3, 2025
Autoren: Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral
cs.AI
Zusammenfassung
Trotz jüngster Fortschritte in der Inversion und instruktionsbasierten Bildbearbeitung
exzellieren bestehende Ansätze vor allem bei der Bearbeitung einzelner, dominanter Objekte,
haben jedoch erhebliche Schwierigkeiten, wenn sie auf komplexe Szenen mit mehreren
Entitäten angewendet werden. Um diese Lücke zu quantifizieren, führen wir zunächst
RefEdit-Bench ein, einen rigorosen, realitätsnahen Benchmark, der auf RefCOCO basiert,
bei dem selbst Baselines, die mit Millionen von Beispielen trainiert wurden, schlecht
abscheiden. Um diese Einschränkung zu überwinden, stellen wir RefEdit vor – ein
instruktionsbasiertes Bearbeitungsmodell, das mit unserer skalierbaren Pipeline zur
synthetischen Datengenerierung trainiert wurde. Unser RefEdit, das mit nur 20.000
Bearbeitungs-Triplets trainiert wurde, übertrifft die auf Millionen von Daten trainierten
Flux/SD3-Modell-Baselines. Umfangreiche Evaluierungen über verschiedene Benchmarks
hinweg zeigen, dass unser Modell nicht nur in Aufgaben mit referenziellen Ausdrücken
hervorragt, sondern auch die Leistung auf traditionellen Benchmarks verbessert und
state-of-the-art Ergebnisse erzielt, die mit Closed-Source-Methoden vergleichbar sind.
Wir veröffentlichen Daten & Checkpoints zur Reproduzierbarkeit.
English
Despite recent advances in inversion and instruction-based image editing,
existing approaches primarily excel at editing single, prominent objects but
significantly struggle when applied to complex scenes containing multiple
entities. To quantify this gap, we first introduce RefEdit-Bench, a rigorous
real-world benchmark rooted in RefCOCO, where even baselines trained on
millions of samples perform poorly. To overcome this limitation, we introduce
RefEdit -- an instruction-based editing model trained on our scalable synthetic
data generation pipeline. Our RefEdit, trained on only 20,000 editing triplets,
outperforms the Flux/SD3 model-based baselines trained on millions of data.
Extensive evaluations across various benchmarks demonstrate that our model not
only excels in referring expression tasks but also enhances performance on
traditional benchmarks, achieving state-of-the-art results comparable to
closed-source methods. We release data \& checkpoint for reproducibility.