Complex-Edit: Generación de Instrucciones al Estilo CoT para un Benchmark de Edición de Imágenes con Control de Complejidad
Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark
April 17, 2025
Autores: Siwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie
cs.AI
Resumen
Presentamos Complex-Edit, un benchmark integral diseñado para evaluar sistemáticamente modelos de edición de imágenes basados en instrucciones a través de instrucciones de complejidad variable. Para desarrollar este benchmark, utilizamos GPT-4o para recopilar automáticamente un conjunto diverso de instrucciones de edición a gran escala. Nuestro enfoque sigue una canalización bien estructurada de "Cadena-de-Edición": primero generamos tareas de edición atómicas de forma independiente y luego las integramos para formar instrucciones complejas y cohesionadas. Además, introducimos un conjunto de métricas para evaluar diversos aspectos del rendimiento en la edición, junto con una canalización de auto-evaluación basada en VLM que permite evaluaciones a gran escala. Nuestro benchmark revela varias observaciones destacables: 1) Los modelos de código abierto tienen un rendimiento significativamente inferior en comparación con los modelos propietarios y cerrados, y esta brecha de rendimiento se amplía a medida que aumenta la complejidad de las instrucciones; 2) El aumento en la complejidad de las instrucciones afecta principalmente la capacidad de los modelos para retener elementos clave de las imágenes de entrada y preservar la calidad estética general; 3) Descomponer una instrucción compleja en una secuencia de pasos atómicos, ejecutados de manera paso a paso, degrada sustancialmente el rendimiento en múltiples métricas; 4) Una estrategia sencilla de selección Best-of-N mejora los resultados tanto para la edición directa como para el enfoque secuencial paso a paso; y 5) Observamos una "maldición de los datos sintéticos": cuando los datos sintéticos están involucrados en el entrenamiento del modelo, las imágenes editadas por tales modelos tienden a parecer cada vez más sintéticas a medida que aumenta la complejidad de las instrucciones de edición, un fenómeno que curiosamente también se manifiesta en las salidas más recientes de GPT-4o.
English
We introduce Complex-Edit, a comprehensive benchmark designed to
systematically evaluate instruction-based image editing models across
instructions of varying complexity. To develop this benchmark, we harness
GPT-4o to automatically collect a diverse set of editing instructions at scale.
Our approach follows a well-structured ``Chain-of-Edit'' pipeline: we first
generate individual atomic editing tasks independently and then integrate them
to form cohesive, complex instructions. Additionally, we introduce a suite of
metrics to assess various aspects of editing performance, along with a
VLM-based auto-evaluation pipeline that supports large-scale assessments. Our
benchmark yields several notable insights: 1) Open-source models significantly
underperform relative to proprietary, closed-source models, with the
performance gap widening as instruction complexity increases; 2) Increased
instructional complexity primarily impairs the models' ability to retain key
elements from the input images and to preserve the overall aesthetic quality;
3) Decomposing a complex instruction into a sequence of atomic steps, executed
in a step-by-step manner, substantially degrades performance across multiple
metrics; 4) A straightforward Best-of-N selection strategy improves results for
both direct editing and the step-by-step sequential approach; and 5) We observe
a ``curse of synthetic data'': when synthetic data is involved in model
training, the edited images from such models tend to appear increasingly
synthetic as the complexity of the editing instructions rises -- a phenomenon
that intriguingly also manifests in the latest GPT-4o outputs.Summary
AI-Generated Summary