RefEdit: Ein Benchmark und eine Methode zur Verbesserung von instruktionsbasierten Bildbearbeitungsmodellen bei referenziellen Ausdrücken

papers.abstract

Trotz jüngster Fortschritte in der Inversion und instruktionsbasierten Bildbearbeitung exzellieren bestehende Ansätze vor allem bei der Bearbeitung einzelner, dominanter Objekte, haben jedoch erhebliche Schwierigkeiten, wenn sie auf komplexe Szenen mit mehreren Entitäten angewendet werden. Um diese Lücke zu quantifizieren, führen wir zunächst RefEdit-Bench ein, einen rigorosen, realitätsnahen Benchmark, der auf RefCOCO basiert, bei dem selbst Baselines, die mit Millionen von Beispielen trainiert wurden, schlecht abscheiden. Um diese Einschränkung zu überwinden, stellen wir RefEdit vor – ein instruktionsbasiertes Bearbeitungsmodell, das mit unserer skalierbaren Pipeline zur synthetischen Datengenerierung trainiert wurde. Unser RefEdit, das mit nur 20.000 Bearbeitungs-Triplets trainiert wurde, übertrifft die auf Millionen von Daten trainierten Flux/SD3-Modell-Baselines. Umfangreiche Evaluierungen über verschiedene Benchmarks hinweg zeigen, dass unser Modell nicht nur in Aufgaben mit referenziellen Ausdrücken hervorragt, sondern auch die Leistung auf traditionellen Benchmarks verbessert und state-of-the-art Ergebnisse erzielt, die mit Closed-Source-Methoden vergleichbar sind. Wir veröffentlichen Daten & Checkpoints zur Reproduzierbarkeit.

English

Despite recent advances in inversion and instruction-based image editing, existing approaches primarily excel at editing single, prominent objects but significantly struggle when applied to complex scenes containing multiple entities. To quantify this gap, we first introduce RefEdit-Bench, a rigorous real-world benchmark rooted in RefCOCO, where even baselines trained on millions of samples perform poorly. To overcome this limitation, we introduce RefEdit -- an instruction-based editing model trained on our scalable synthetic data generation pipeline. Our RefEdit, trained on only 20,000 editing triplets, outperforms the Flux/SD3 model-based baselines trained on millions of data. Extensive evaluations across various benchmarks demonstrate that our model not only excels in referring expression tasks but also enhances performance on traditional benchmarks, achieving state-of-the-art results comparable to closed-source methods. We release data \& checkpoint for reproducibility.

RefEdit: Ein Benchmark und eine Methode zur Verbesserung von instruktionsbasierten Bildbearbeitungsmodellen bei referenziellen Ausdrücken

RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions

papers.abstract

Support