RefEdit: Бенчмарк и метод для улучшения моделей редактирования изображений на основе инструкций с использованием референциальных выражений
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
June 3, 2025
Авторы: Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral
cs.AI
Аннотация
Несмотря на недавние достижения в области инверсии и редактирования изображений на основе инструкций, существующие подходы в основном преуспевают в редактировании отдельных, заметных объектов, но значительно затрудняются при работе со сложными сценами, содержащими множество объектов. Чтобы количественно оценить этот разрыв, мы сначала представляем RefEdit-Bench — строгий бенчмарк, основанный на реальных данных из RefCOCO, где даже базовые модели, обученные на миллионах образцов, показывают низкие результаты. Чтобы преодолеть это ограничение, мы представляем RefEdit — модель редактирования на основе инструкций, обученную на нашем масштабируемом конвейере генерации синтетических данных. Наша модель RefEdit, обученная всего на 20 000 тройках редактирования, превосходит базовые модели на основе Flux/SD3, обученные на миллионах данных. Обширные оценки на различных бенчмарках демонстрируют, что наша модель не только преуспевает в задачах, связанных с референциальными выражениями, но также улучшает производительность на традиционных бенчмарках, достигая результатов, сопоставимых с закрытыми методами. Мы публикуем данные и контрольные точки для обеспечения воспроизводимости.
English
Despite recent advances in inversion and instruction-based image editing,
existing approaches primarily excel at editing single, prominent objects but
significantly struggle when applied to complex scenes containing multiple
entities. To quantify this gap, we first introduce RefEdit-Bench, a rigorous
real-world benchmark rooted in RefCOCO, where even baselines trained on
millions of samples perform poorly. To overcome this limitation, we introduce
RefEdit -- an instruction-based editing model trained on our scalable synthetic
data generation pipeline. Our RefEdit, trained on only 20,000 editing triplets,
outperforms the Flux/SD3 model-based baselines trained on millions of data.
Extensive evaluations across various benchmarks demonstrate that our model not
only excels in referring expression tasks but also enhances performance on
traditional benchmarks, achieving state-of-the-art results comparable to
closed-source methods. We release data \& checkpoint for reproducibility.