ChatPaper.aiChatPaper

RefEdit: Un punto de referencia y método para mejorar los modelos de edición de imágenes basados en instrucciones mediante expresiones referenciales

RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions

June 3, 2025
Autores: Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral
cs.AI

Resumen

A pesar de los recientes avances en inversión y edición de imágenes basada en instrucciones, los enfoques existentes destacan principalmente en la edición de objetos únicos y prominentes, pero enfrentan dificultades significativas cuando se aplican a escenas complejas que contienen múltiples entidades. Para cuantificar esta brecha, primero presentamos RefEdit-Bench, un riguroso punto de referencia del mundo real basado en RefCOCO, donde incluso los modelos base entrenados con millones de muestras obtienen un rendimiento deficiente. Para superar esta limitación, introducimos RefEdit, un modelo de edición basado en instrucciones entrenado en nuestra escalable pipeline de generación de datos sintéticos. Nuestro RefEdit, entrenado con solo 20,000 tripletas de edición, supera a los modelos base basados en Flux/SD3 entrenados con millones de datos. Evaluaciones exhaustivas en varios benchmarks demuestran que nuestro modelo no solo sobresale en tareas de expresiones referenciales, sino que también mejora el rendimiento en benchmarks tradicionales, logrando resultados de vanguardia comparables a métodos de código cerrado. Publicamos los datos y el checkpoint para garantizar la reproducibilidad.
English
Despite recent advances in inversion and instruction-based image editing, existing approaches primarily excel at editing single, prominent objects but significantly struggle when applied to complex scenes containing multiple entities. To quantify this gap, we first introduce RefEdit-Bench, a rigorous real-world benchmark rooted in RefCOCO, where even baselines trained on millions of samples perform poorly. To overcome this limitation, we introduce RefEdit -- an instruction-based editing model trained on our scalable synthetic data generation pipeline. Our RefEdit, trained on only 20,000 editing triplets, outperforms the Flux/SD3 model-based baselines trained on millions of data. Extensive evaluations across various benchmarks demonstrate that our model not only excels in referring expression tasks but also enhances performance on traditional benchmarks, achieving state-of-the-art results comparable to closed-source methods. We release data \& checkpoint for reproducibility.
PDF42June 5, 2025