Complex-Edit: CoT-ähnliche Instruktionsgenerierung für einen Komplexitätssteuerbaren Bildbearbeitungs-Benchmark
Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark
April 17, 2025
Autoren: Siwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie
cs.AI
Zusammenfassung
Wir stellen Complex-Edit vor, einen umfassenden Benchmark, der entwickelt wurde, um instruktionsbasierte Bildbearbeitungsmodelle systematisch über Anweisungen unterschiedlicher Komplexität hinweg zu evaluieren. Um diesen Benchmark zu erstellen, nutzen wir GPT-4o, um automatisch eine vielfältige Sammlung von Bearbeitungsanweisungen in großem Maßstab zu generieren. Unser Ansatz folgt einer strukturierten „Chain-of-Edit“-Pipeline: Zuerst generieren wir individuelle atomare Bearbeitungsaufgaben unabhängig voneinander und integrieren sie dann, um zusammenhängende, komplexe Anweisungen zu bilden. Zusätzlich führen wir eine Reihe von Metriken ein, um verschiedene Aspekte der Bearbeitungsleistung zu bewerten, sowie eine VLM-basierte Auto-Evaluationspipeline, die groß angelegte Bewertungen unterstützt. Unser Benchmark liefert mehrere bemerkenswerte Erkenntnisse: 1) Open-Source-Modelle schneiden im Vergleich zu proprietären, geschlossenen Modellen deutlich schlechter ab, wobei die Leistungslücke mit zunehmender Komplexität der Anweisungen größer wird; 2) Erhöhte Anweisungskomplexität beeinträchtigt vor allem die Fähigkeit der Modelle, Schlüsselelemente der Eingabebilder zu erhalten und die ästhetische Gesamtqualität zu bewahren; 3) Die Zerlegung einer komplexen Anweisung in eine Sequenz atomarer Schritte, die schrittweise ausgeführt werden, verschlechtert die Leistung über mehrere Metriken hinweg erheblich; 4) Eine einfache Best-of-N-Auswahlstrategie verbessert die Ergebnisse sowohl für die direkte Bearbeitung als auch für den schrittweisen sequenziellen Ansatz; und 5) Wir beobachten einen „Fluch synthetischer Daten“: Wenn synthetische Daten in das Modelltraining einbezogen werden, neigen die bearbeiteten Bilder solcher Modelle dazu, mit steigender Komplexität der Bearbeitungsanweisungen zunehmend synthetisch zu wirken – ein Phänomen, das interessanterweise auch in den neuesten GPT-4o-Ausgaben auftritt.
English
We introduce Complex-Edit, a comprehensive benchmark designed to
systematically evaluate instruction-based image editing models across
instructions of varying complexity. To develop this benchmark, we harness
GPT-4o to automatically collect a diverse set of editing instructions at scale.
Our approach follows a well-structured ``Chain-of-Edit'' pipeline: we first
generate individual atomic editing tasks independently and then integrate them
to form cohesive, complex instructions. Additionally, we introduce a suite of
metrics to assess various aspects of editing performance, along with a
VLM-based auto-evaluation pipeline that supports large-scale assessments. Our
benchmark yields several notable insights: 1) Open-source models significantly
underperform relative to proprietary, closed-source models, with the
performance gap widening as instruction complexity increases; 2) Increased
instructional complexity primarily impairs the models' ability to retain key
elements from the input images and to preserve the overall aesthetic quality;
3) Decomposing a complex instruction into a sequence of atomic steps, executed
in a step-by-step manner, substantially degrades performance across multiple
metrics; 4) A straightforward Best-of-N selection strategy improves results for
both direct editing and the step-by-step sequential approach; and 5) We observe
a ``curse of synthetic data'': when synthetic data is involved in model
training, the edited images from such models tend to appear increasingly
synthetic as the complexity of the editing instructions rises -- a phenomenon
that intriguingly also manifests in the latest GPT-4o outputs.Summary
AI-Generated Summary