Complex-Edit: CoT-achtige instructiegeneratie voor een benchmark voor complexiteit-beheersbare beeldbewerking

Samenvatting

We introduceren Complex-Edit, een uitgebreide benchmark ontworpen om instructiegebaseerde beeldbewerkingsmodellen systematisch te evalueren over instructies van variërende complexiteit. Om deze benchmark te ontwikkelen, maken we gebruik van GPT-4o om automatisch een diverse set bewerkingsinstructies op grote schaal te verzamelen. Onze aanpak volgt een gestructureerde ``Chain-of-Edit''-pijplijn: we genereren eerst individuele atomische bewerkingstaken onafhankelijk van elkaar en integreren deze vervolgens om samenhangende, complexe instructies te vormen. Daarnaast introduceren we een reeks metrieken om verschillende aspecten van bewerkingsprestaties te beoordelen, samen met een VLM-gebaseerde automatische evaluatiepijplijn die grootschalige beoordelingen ondersteunt. Onze benchmark levert verschillende opmerkelijke inzichten op: 1) Open-source modellen presteren aanzienlijk slechter in vergelijking met propriëtaire, gesloten modellen, waarbij het prestatieverschil toeneemt naarmate de complexiteit van de instructies groter wordt; 2) Toegenomen instructiecomplexiteit belemmert vooral het vermogen van de modellen om belangrijke elementen uit de invoerbeelden te behouden en de algehele esthetische kwaliteit te bewaren; 3) Het ontbinden van een complexe instructie in een reeks atomische stappen, uitgevoerd in een stap-voor-stap benadering, verslechtert de prestaties aanzienlijk over meerdere metrieken; 4) Een eenvoudige Best-of-N selectiestrategie verbetert de resultaten voor zowel directe bewerking als de stap-voor-stap sequentiële aanpak; en 5) We observeren een ``vloek van synthetische data'': wanneer synthetische data betrokken is bij de modeltraining, neigen de bewerkte afbeeldingen van dergelijke modellen steeds synthetischer te lijken naarmate de complexiteit van de bewerkingsinstructies toeneemt – een fenomeen dat opmerkelijk genoeg ook zichtbaar is in de nieuwste GPT-4o-uitvoer.

English

We introduce Complex-Edit, a comprehensive benchmark designed to systematically evaluate instruction-based image editing models across instructions of varying complexity. To develop this benchmark, we harness GPT-4o to automatically collect a diverse set of editing instructions at scale. Our approach follows a well-structured ``Chain-of-Edit'' pipeline: we first generate individual atomic editing tasks independently and then integrate them to form cohesive, complex instructions. Additionally, we introduce a suite of metrics to assess various aspects of editing performance, along with a VLM-based auto-evaluation pipeline that supports large-scale assessments. Our benchmark yields several notable insights: 1) Open-source models significantly underperform relative to proprietary, closed-source models, with the performance gap widening as instruction complexity increases; 2) Increased instructional complexity primarily impairs the models' ability to retain key elements from the input images and to preserve the overall aesthetic quality; 3) Decomposing a complex instruction into a sequence of atomic steps, executed in a step-by-step manner, substantially degrades performance across multiple metrics; 4) A straightforward Best-of-N selection strategy improves results for both direct editing and the step-by-step sequential approach; and 5) We observe a ``curse of synthetic data'': when synthetic data is involved in model training, the edited images from such models tend to appear increasingly synthetic as the complexity of the editing instructions rises -- a phenomenon that intriguingly also manifests in the latest GPT-4o outputs.

Complex-Edit: CoT-achtige instructiegeneratie voor een benchmark voor complexiteit-beheersbare beeldbewerking

Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark

Samenvatting

Support