Complex-Edit: CoT-achtige instructiegeneratie voor een benchmark voor complexiteit-beheersbare beeldbewerking
Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark
April 17, 2025
Auteurs: Siwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie
cs.AI
Samenvatting
We introduceren Complex-Edit, een uitgebreide benchmark ontworpen om instructiegebaseerde beeldbewerkingsmodellen systematisch te evalueren over instructies van variërende complexiteit. Om deze benchmark te ontwikkelen, maken we gebruik van GPT-4o om automatisch een diverse set bewerkingsinstructies op grote schaal te verzamelen. Onze aanpak volgt een gestructureerde ``Chain-of-Edit''-pijplijn: we genereren eerst individuele atomische bewerkingstaken onafhankelijk van elkaar en integreren deze vervolgens om samenhangende, complexe instructies te vormen. Daarnaast introduceren we een reeks metrieken om verschillende aspecten van bewerkingsprestaties te beoordelen, samen met een VLM-gebaseerde automatische evaluatiepijplijn die grootschalige beoordelingen ondersteunt. Onze benchmark levert verschillende opmerkelijke inzichten op: 1) Open-source modellen presteren aanzienlijk slechter in vergelijking met propriëtaire, gesloten modellen, waarbij het prestatieverschil toeneemt naarmate de complexiteit van de instructies groter wordt; 2) Toegenomen instructiecomplexiteit belemmert vooral het vermogen van de modellen om belangrijke elementen uit de invoerbeelden te behouden en de algehele esthetische kwaliteit te bewaren; 3) Het ontbinden van een complexe instructie in een reeks atomische stappen, uitgevoerd in een stap-voor-stap benadering, verslechtert de prestaties aanzienlijk over meerdere metrieken; 4) Een eenvoudige Best-of-N selectiestrategie verbetert de resultaten voor zowel directe bewerking als de stap-voor-stap sequentiële aanpak; en 5) We observeren een ``vloek van synthetische data'': wanneer synthetische data betrokken is bij de modeltraining, neigen de bewerkte afbeeldingen van dergelijke modellen steeds synthetischer te lijken naarmate de complexiteit van de bewerkingsinstructies toeneemt – een fenomeen dat opmerkelijk genoeg ook zichtbaar is in de nieuwste GPT-4o-uitvoer.
English
We introduce Complex-Edit, a comprehensive benchmark designed to
systematically evaluate instruction-based image editing models across
instructions of varying complexity. To develop this benchmark, we harness
GPT-4o to automatically collect a diverse set of editing instructions at scale.
Our approach follows a well-structured ``Chain-of-Edit'' pipeline: we first
generate individual atomic editing tasks independently and then integrate them
to form cohesive, complex instructions. Additionally, we introduce a suite of
metrics to assess various aspects of editing performance, along with a
VLM-based auto-evaluation pipeline that supports large-scale assessments. Our
benchmark yields several notable insights: 1) Open-source models significantly
underperform relative to proprietary, closed-source models, with the
performance gap widening as instruction complexity increases; 2) Increased
instructional complexity primarily impairs the models' ability to retain key
elements from the input images and to preserve the overall aesthetic quality;
3) Decomposing a complex instruction into a sequence of atomic steps, executed
in a step-by-step manner, substantially degrades performance across multiple
metrics; 4) A straightforward Best-of-N selection strategy improves results for
both direct editing and the step-by-step sequential approach; and 5) We observe
a ``curse of synthetic data'': when synthetic data is involved in model
training, the edited images from such models tend to appear increasingly
synthetic as the complexity of the editing instructions rises -- a phenomenon
that intriguingly also manifests in the latest GPT-4o outputs.Summary
AI-Generated Summary