ChatPaper.aiChatPaper

Complex-Edit: Generazione di Istruzioni Simili a CoT per un Benchmark di Modifica delle Immagini con Controllo della Complessità

Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark

April 17, 2025
Autori: Siwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie
cs.AI

Abstract

Introduciamo Complex-Edit, un benchmark completo progettato per valutare sistematicamente i modelli di editing di immagini basati su istruzioni attraverso istruzioni di varia complessità. Per sviluppare questo benchmark, sfruttiamo GPT-4o per raccogliere automaticamente un insieme diversificato di istruzioni di editing su larga scala. Il nostro approccio segue una pipeline ben strutturata chiamata ``Chain-of-Edit'': generiamo prima singoli task di editing atomici in modo indipendente e poi li integriamo per formare istruzioni complesse e coerenti. Inoltre, introduciamo una serie di metriche per valutare vari aspetti delle prestazioni di editing, insieme a una pipeline di auto-valutazione basata su VLM che supporta valutazioni su larga scala. Il nostro benchmark fornisce diverse intuizioni significative: 1) I modelli open-source hanno prestazioni significativamente inferiori rispetto ai modelli proprietari chiusi, con il divario di prestazioni che aumenta all'aumentare della complessità delle istruzioni; 2) L'aumento della complessità delle istruzioni compromette principalmente la capacità dei modelli di conservare gli elementi chiave delle immagini di input e di preservare la qualità estetica complessiva; 3) Scomporre un'istruzione complessa in una sequenza di passi atomici, eseguiti in modo sequenziale, degrada sostanzialmente le prestazioni su più metriche; 4) Una semplice strategia di selezione Best-of-N migliora i risultati sia per l'editing diretto che per l'approccio sequenziale passo-passo; e 5) Osserviamo una ``maledizione dei dati sintetici'': quando i dati sintetici sono coinvolti nell'addestramento del modello, le immagini modificate da tali modelli tendono ad apparire sempre più sintetiche all'aumentare della complessità delle istruzioni di editing — un fenomeno che, curiosamente, si manifesta anche negli output più recenti di GPT-4o.
English
We introduce Complex-Edit, a comprehensive benchmark designed to systematically evaluate instruction-based image editing models across instructions of varying complexity. To develop this benchmark, we harness GPT-4o to automatically collect a diverse set of editing instructions at scale. Our approach follows a well-structured ``Chain-of-Edit'' pipeline: we first generate individual atomic editing tasks independently and then integrate them to form cohesive, complex instructions. Additionally, we introduce a suite of metrics to assess various aspects of editing performance, along with a VLM-based auto-evaluation pipeline that supports large-scale assessments. Our benchmark yields several notable insights: 1) Open-source models significantly underperform relative to proprietary, closed-source models, with the performance gap widening as instruction complexity increases; 2) Increased instructional complexity primarily impairs the models' ability to retain key elements from the input images and to preserve the overall aesthetic quality; 3) Decomposing a complex instruction into a sequence of atomic steps, executed in a step-by-step manner, substantially degrades performance across multiple metrics; 4) A straightforward Best-of-N selection strategy improves results for both direct editing and the step-by-step sequential approach; and 5) We observe a ``curse of synthetic data'': when synthetic data is involved in model training, the edited images from such models tend to appear increasingly synthetic as the complexity of the editing instructions rises -- a phenomenon that intriguingly also manifests in the latest GPT-4o outputs.
PDF82April 18, 2025