Complex-Edit : Génération d'instructions de type CoT pour un benchmark d'édition d'images à complexité contrôlable
Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark
April 17, 2025
Auteurs: Siwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie
cs.AI
Résumé
Nous présentons Complex-Edit, un benchmark complet conçu pour évaluer systématiquement les modèles d'édition d'images basés sur des instructions à travers des instructions de complexité variable. Pour développer ce benchmark, nous utilisons GPT-4o pour collecter automatiquement un ensemble diversifié d'instructions d'édition à grande échelle. Notre approche suit un pipeline structuré en « Chaîne d'Édition » : nous générons d'abord des tâches d'édition atomiques de manière indépendante, puis les intégrons pour former des instructions complexes et cohérentes. De plus, nous introduisons une série de métriques pour évaluer divers aspects de la performance d'édition, ainsi qu'un pipeline d'auto-évaluation basé sur un modèle de langage visuel (VLM) qui permet des évaluations à grande échelle. Notre benchmark révèle plusieurs observations notables : 1) Les modèles open source sous-performent significativement par rapport aux modèles propriétaires fermés, avec un écart de performance qui s'accentue à mesure que la complexité des instructions augmente ; 2) Une complexité accrue des instructions affecte principalement la capacité des modèles à conserver les éléments clés des images d'entrée et à préserver la qualité esthétique globale ; 3) Décomposer une instruction complexe en une séquence d'étapes atomiques, exécutées pas à pas, dégrade considérablement la performance sur plusieurs métriques ; 4) Une stratégie simple de sélection « Best-of-N » améliore les résultats à la fois pour l'édition directe et l'approche séquentielle pas à pas ; et 5) Nous observons une « malédiction des données synthétiques » : lorsque des données synthétiques sont impliquées dans l'entraînement des modèles, les images éditées par ces modèles tendent à paraître de plus en plus synthétiques à mesure que la complexité des instructions d'édition augmente — un phénomène qui se manifeste également de manière intrigante dans les dernières sorties de GPT-4o.
English
We introduce Complex-Edit, a comprehensive benchmark designed to
systematically evaluate instruction-based image editing models across
instructions of varying complexity. To develop this benchmark, we harness
GPT-4o to automatically collect a diverse set of editing instructions at scale.
Our approach follows a well-structured ``Chain-of-Edit'' pipeline: we first
generate individual atomic editing tasks independently and then integrate them
to form cohesive, complex instructions. Additionally, we introduce a suite of
metrics to assess various aspects of editing performance, along with a
VLM-based auto-evaluation pipeline that supports large-scale assessments. Our
benchmark yields several notable insights: 1) Open-source models significantly
underperform relative to proprietary, closed-source models, with the
performance gap widening as instruction complexity increases; 2) Increased
instructional complexity primarily impairs the models' ability to retain key
elements from the input images and to preserve the overall aesthetic quality;
3) Decomposing a complex instruction into a sequence of atomic steps, executed
in a step-by-step manner, substantially degrades performance across multiple
metrics; 4) A straightforward Best-of-N selection strategy improves results for
both direct editing and the step-by-step sequential approach; and 5) We observe
a ``curse of synthetic data'': when synthetic data is involved in model
training, the edited images from such models tend to appear increasingly
synthetic as the complexity of the editing instructions rises -- a phenomenon
that intriguingly also manifests in the latest GPT-4o outputs.Summary
AI-Generated Summary