RefEdit: Um Benchmark e Método para Melhorar Modelos de Edição de Imagens Baseados em Instruções em Expressões Referenciais
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
June 3, 2025
Autores: Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral
cs.AI
Resumo
Apesar dos avanços recentes em inversão e edição de imagens baseada em instruções, as abordagens existentes se destacam principalmente na edição de objetos únicos e proeminentes, mas enfrentam dificuldades significativas quando aplicadas a cenas complexas contendo múltiplas entidades. Para quantificar essa lacuna, primeiro introduzimos o RefEdit-Bench, um rigoroso benchmark do mundo real baseado no RefCOCO, onde até mesmo modelos de base treinados com milhões de amostras têm desempenho ruim. Para superar essa limitação, apresentamos o RefEdit — um modelo de edição baseado em instruções treinado em nosso pipeline escalável de geração de dados sintéticos. Nosso RefEdit, treinado com apenas 20.000 triplas de edição, supera os modelos de base baseados em Flux/SD3 treinados com milhões de dados. Avaliações extensas em vários benchmarks demonstram que nosso modelo não apenas se destaca em tarefas de expressão referencial, mas também melhora o desempenho em benchmarks tradicionais, alcançando resultados de ponta comparáveis a métodos de código fechado. Disponibilizamos dados e checkpoints para garantir a reprodutibilidade.
English
Despite recent advances in inversion and instruction-based image editing,
existing approaches primarily excel at editing single, prominent objects but
significantly struggle when applied to complex scenes containing multiple
entities. To quantify this gap, we first introduce RefEdit-Bench, a rigorous
real-world benchmark rooted in RefCOCO, where even baselines trained on
millions of samples perform poorly. To overcome this limitation, we introduce
RefEdit -- an instruction-based editing model trained on our scalable synthetic
data generation pipeline. Our RefEdit, trained on only 20,000 editing triplets,
outperforms the Flux/SD3 model-based baselines trained on millions of data.
Extensive evaluations across various benchmarks demonstrate that our model not
only excels in referring expression tasks but also enhances performance on
traditional benchmarks, achieving state-of-the-art results comparable to
closed-source methods. We release data \& checkpoint for reproducibility.