Complex-Edit: Geração de Instruções Semelhantes a CoT para Benchmark de Edição de Imagens com Controle de Complexidade
Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark
April 17, 2025
Autores: Siwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie
cs.AI
Resumo
Apresentamos o Complex-Edit, um benchmark abrangente projetado para avaliar sistematicamente modelos de edição de imagens baseados em instruções, considerando instruções de complexidade variável. Para desenvolver esse benchmark, utilizamos o GPT-4 para coletar automaticamente, em larga escala, um conjunto diversificado de instruções de edição. Nossa abordagem segue um pipeline bem estruturado de "Cadeia de Edição": primeiro geramos tarefas de edição atômicas de forma independente e, em seguida, as integramos para formar instruções complexas e coesas. Além disso, introduzimos um conjunto de métricas para avaliar diversos aspectos do desempenho na edição, juntamente com um pipeline de autoavaliação baseado em VLM (Modelo de Linguagem Visual) que suporta avaliações em larga escala. Nosso benchmark revela várias observações importantes: 1) Modelos de código aberto têm desempenho significativamente inferior em comparação com modelos proprietários de código fechado, com a diferença de desempenho aumentando à medida que a complexidade das instruções cresce; 2) O aumento da complexidade das instruções prejudica principalmente a capacidade dos modelos de reter elementos-chave das imagens de entrada e de preservar a qualidade estética geral; 3) Decompor uma instrução complexa em uma sequência de etapas atômicas, executadas passo a passo, degrada substancialmente o desempenho em múltiplas métricas; 4) Uma estratégia simples de seleção "Best-of-N" melhora os resultados tanto para a edição direta quanto para a abordagem sequencial passo a passo; e 5) Observamos uma "maldição dos dados sintéticos": quando dados sintéticos são utilizados no treinamento dos modelos, as imagens editadas por esses modelos tendem a parecer cada vez mais sintéticas à medida que a complexidade das instruções de edição aumenta — um fenômeno que, curiosamente, também se manifesta nas saídas mais recentes do GPT-4.
English
We introduce Complex-Edit, a comprehensive benchmark designed to
systematically evaluate instruction-based image editing models across
instructions of varying complexity. To develop this benchmark, we harness
GPT-4o to automatically collect a diverse set of editing instructions at scale.
Our approach follows a well-structured ``Chain-of-Edit'' pipeline: we first
generate individual atomic editing tasks independently and then integrate them
to form cohesive, complex instructions. Additionally, we introduce a suite of
metrics to assess various aspects of editing performance, along with a
VLM-based auto-evaluation pipeline that supports large-scale assessments. Our
benchmark yields several notable insights: 1) Open-source models significantly
underperform relative to proprietary, closed-source models, with the
performance gap widening as instruction complexity increases; 2) Increased
instructional complexity primarily impairs the models' ability to retain key
elements from the input images and to preserve the overall aesthetic quality;
3) Decomposing a complex instruction into a sequence of atomic steps, executed
in a step-by-step manner, substantially degrades performance across multiple
metrics; 4) A straightforward Best-of-N selection strategy improves results for
both direct editing and the step-by-step sequential approach; and 5) We observe
a ``curse of synthetic data'': when synthetic data is involved in model
training, the edited images from such models tend to appear increasingly
synthetic as the complexity of the editing instructions rises -- a phenomenon
that intriguingly also manifests in the latest GPT-4o outputs.Summary
AI-Generated Summary