Complex-Edit: Генерация инструкций в стиле CoT для эталонного тестирования контролируемого по сложности редактирования изображений

Аннотация

Мы представляем Complex-Edit — всеобъемлющий бенчмарк, разработанный для систематической оценки моделей редактирования изображений на основе инструкций различной сложности. Для создания этого бенчмарка мы используем GPT-4o для автоматического сбора разнообразного набора инструкций по редактированию в больших масштабах. Наш подход следует четко структурированному конвейеру «Цепочка редактирования»: сначала мы генерируем отдельные атомарные задачи редактирования независимо, а затем интегрируем их в целостные сложные инструкции. Кроме того, мы вводим набор метрик для оценки различных аспектов производительности редактирования, а также конвейер автоматической оценки на основе VLM, который поддерживает масштабные оценки. Наш бенчмарк выявляет несколько важных наблюдений: 1) Модели с открытым исходным кодом значительно уступают проприетарным моделям с закрытым исходным кодом, причем разрыв в производительности увеличивается с ростом сложности инструкций; 2) Увеличение сложности инструкций в первую очередь ухудшает способность моделей сохранять ключевые элементы исходных изображений и поддерживать общее эстетическое качество; 3) Разложение сложной инструкции на последовательность атомарных шагов, выполняемых пошагово, существенно снижает производительность по множеству метрик; 4) Простая стратегия выбора Best-of-N улучшает результаты как для прямого редактирования, так и для пошагового подхода; и 5) Мы наблюдаем «проклятие синтетических данных»: когда синтетические данные используются при обучении моделей, отредактированные изображения таких моделей становятся все более синтетическими по мере увеличения сложности инструкций — явление, которое, что интересно, также проявляется в последних выходах GPT-4o.

English

We introduce Complex-Edit, a comprehensive benchmark designed to systematically evaluate instruction-based image editing models across instructions of varying complexity. To develop this benchmark, we harness GPT-4o to automatically collect a diverse set of editing instructions at scale. Our approach follows a well-structured ``Chain-of-Edit'' pipeline: we first generate individual atomic editing tasks independently and then integrate them to form cohesive, complex instructions. Additionally, we introduce a suite of metrics to assess various aspects of editing performance, along with a VLM-based auto-evaluation pipeline that supports large-scale assessments. Our benchmark yields several notable insights: 1) Open-source models significantly underperform relative to proprietary, closed-source models, with the performance gap widening as instruction complexity increases; 2) Increased instructional complexity primarily impairs the models' ability to retain key elements from the input images and to preserve the overall aesthetic quality; 3) Decomposing a complex instruction into a sequence of atomic steps, executed in a step-by-step manner, substantially degrades performance across multiple metrics; 4) A straightforward Best-of-N selection strategy improves results for both direct editing and the step-by-step sequential approach; and 5) We observe a ``curse of synthetic data'': when synthetic data is involved in model training, the edited images from such models tend to appear increasingly synthetic as the complexity of the editing instructions rises -- a phenomenon that intriguingly also manifests in the latest GPT-4o outputs.

Complex-Edit: Генерация инструкций в стиле CoT для эталонного тестирования контролируемого по сложности редактирования изображений

Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark

Аннотация

Support