ByteEdit: Potenziare, Conformare e Accelerare l'Editing Generativo di Immagini

Abstract

I recenti progressi nell'editing generativo di immagini basato su diffusione hanno innescato una profonda rivoluzione, ridefinendo il panorama delle attività di outpaint e inpaint delle immagini. Nonostante questi avanzamenti, il campo deve affrontare sfide intrinseche, tra cui: i) qualità inferiore; ii) scarsa coerenza; iii) aderenza insufficiente alle istruzioni; iv) efficienza di generazione subottimale. Per affrontare questi ostacoli, presentiamo ByteEdit, un innovativo framework di apprendimento con feedback meticolosamente progettato per potenziare, conformare e accelerare le attività di editing generativo di immagini. ByteEdit integra in modo fluido modelli di ricompensa per immagini dedicati a migliorare l'estetica e l'allineamento immagine-testo, introducendo anche un modello di ricompensa denso a livello di pixel, concepito per favorire la coerenza nell'output. Inoltre, proponiamo una strategia pionieristica di apprendimento con feedback avversario e progressivo per accelerare la velocità di inferenza del modello. Attraverso estese valutazioni su larga scala condotte da utenti, dimostriamo che ByteEdit supera i principali prodotti di editing generativo di immagini, tra cui Adobe, Canva e MeiTu, sia in termini di qualità che di coerenza. ByteEdit-Outpainting mostra un miglioramento notevole del 388% e del 135% rispettivamente nella qualità e nella coerenza rispetto al modello di base. Gli esperimenti hanno anche verificato che i nostri modelli di accelerazione mantengono risultati eccellenti in termini di qualità e coerenza.

English

Recent advancements in diffusion-based generative image editing have sparked a profound revolution, reshaping the landscape of image outpainting and inpainting tasks. Despite these strides, the field grapples with inherent challenges, including: i) inferior quality; ii) poor consistency; iii) insufficient instrcution adherence; iv) suboptimal generation efficiency. To address these obstacles, we present ByteEdit, an innovative feedback learning framework meticulously designed to Boost, Comply, and Accelerate Generative Image Editing tasks. ByteEdit seamlessly integrates image reward models dedicated to enhancing aesthetics and image-text alignment, while also introducing a dense, pixel-level reward model tailored to foster coherence in the output. Furthermore, we propose a pioneering adversarial and progressive feedback learning strategy to expedite the model's inference speed. Through extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses leading generative image editing products, including Adobe, Canva, and MeiTu, in both generation quality and consistency. ByteEdit-Outpainting exhibits a remarkable enhancement of 388% and 135% in quality and consistency, respectively, when compared to the baseline model. Experiments also verfied that our acceleration models maintains excellent performance results in terms of quality and consistency.

ByteEdit: Potenziare, Conformare e Accelerare l'Editing Generativo di Immagini

ByteEdit: Boost, Comply and Accelerate Generative Image Editing

Abstract

Support