Complex-Edit: Генерация инструкций в стиле CoT для эталонного тестирования контролируемого по сложности редактирования изображений
Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark
April 17, 2025
Авторы: Siwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie
cs.AI
Аннотация
Мы представляем Complex-Edit — всеобъемлющий бенчмарк, разработанный для систематической оценки моделей редактирования изображений на основе инструкций различной сложности. Для создания этого бенчмарка мы используем GPT-4o для автоматического сбора разнообразного набора инструкций по редактированию в больших масштабах. Наш подход следует четко структурированному конвейеру «Цепочка редактирования»: сначала мы генерируем отдельные атомарные задачи редактирования независимо, а затем интегрируем их в целостные сложные инструкции. Кроме того, мы вводим набор метрик для оценки различных аспектов производительности редактирования, а также конвейер автоматической оценки на основе VLM, который поддерживает масштабные оценки. Наш бенчмарк выявляет несколько важных наблюдений: 1) Модели с открытым исходным кодом значительно уступают проприетарным моделям с закрытым исходным кодом, причем разрыв в производительности увеличивается с ростом сложности инструкций; 2) Увеличение сложности инструкций в первую очередь ухудшает способность моделей сохранять ключевые элементы исходных изображений и поддерживать общее эстетическое качество; 3) Разложение сложной инструкции на последовательность атомарных шагов, выполняемых пошагово, существенно снижает производительность по множеству метрик; 4) Простая стратегия выбора Best-of-N улучшает результаты как для прямого редактирования, так и для пошагового подхода; и 5) Мы наблюдаем «проклятие синтетических данных»: когда синтетические данные используются при обучении моделей, отредактированные изображения таких моделей становятся все более синтетическими по мере увеличения сложности инструкций — явление, которое, что интересно, также проявляется в последних выходах GPT-4o.
English
We introduce Complex-Edit, a comprehensive benchmark designed to
systematically evaluate instruction-based image editing models across
instructions of varying complexity. To develop this benchmark, we harness
GPT-4o to automatically collect a diverse set of editing instructions at scale.
Our approach follows a well-structured ``Chain-of-Edit'' pipeline: we first
generate individual atomic editing tasks independently and then integrate them
to form cohesive, complex instructions. Additionally, we introduce a suite of
metrics to assess various aspects of editing performance, along with a
VLM-based auto-evaluation pipeline that supports large-scale assessments. Our
benchmark yields several notable insights: 1) Open-source models significantly
underperform relative to proprietary, closed-source models, with the
performance gap widening as instruction complexity increases; 2) Increased
instructional complexity primarily impairs the models' ability to retain key
elements from the input images and to preserve the overall aesthetic quality;
3) Decomposing a complex instruction into a sequence of atomic steps, executed
in a step-by-step manner, substantially degrades performance across multiple
metrics; 4) A straightforward Best-of-N selection strategy improves results for
both direct editing and the step-by-step sequential approach; and 5) We observe
a ``curse of synthetic data'': when synthetic data is involved in model
training, the edited images from such models tend to appear increasingly
synthetic as the complexity of the editing instructions rises -- a phenomenon
that intriguingly also manifests in the latest GPT-4o outputs.Summary
AI-Generated Summary