ByteEdit: Potenziare, Conformare e Accelerare l'Editing Generativo di Immagini
ByteEdit: Boost, Comply and Accelerate Generative Image Editing
April 7, 2024
Autori: Yuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu
cs.AI
Abstract
I recenti progressi nell'editing generativo di immagini basato su diffusione hanno innescato una profonda rivoluzione, ridefinendo il panorama delle attività di outpaint e inpaint delle immagini. Nonostante questi avanzamenti, il campo deve affrontare sfide intrinseche, tra cui: i) qualità inferiore; ii) scarsa coerenza; iii) aderenza insufficiente alle istruzioni; iv) efficienza di generazione subottimale. Per affrontare questi ostacoli, presentiamo ByteEdit, un innovativo framework di apprendimento con feedback meticolosamente progettato per potenziare, conformare e accelerare le attività di editing generativo di immagini. ByteEdit integra in modo fluido modelli di ricompensa per immagini dedicati a migliorare l'estetica e l'allineamento immagine-testo, introducendo anche un modello di ricompensa denso a livello di pixel, concepito per favorire la coerenza nell'output. Inoltre, proponiamo una strategia pionieristica di apprendimento con feedback avversario e progressivo per accelerare la velocità di inferenza del modello. Attraverso estese valutazioni su larga scala condotte da utenti, dimostriamo che ByteEdit supera i principali prodotti di editing generativo di immagini, tra cui Adobe, Canva e MeiTu, sia in termini di qualità che di coerenza. ByteEdit-Outpainting mostra un miglioramento notevole del 388% e del 135% rispettivamente nella qualità e nella coerenza rispetto al modello di base. Gli esperimenti hanno anche verificato che i nostri modelli di accelerazione mantengono risultati eccellenti in termini di qualità e coerenza.
English
Recent advancements in diffusion-based generative image editing have sparked
a profound revolution, reshaping the landscape of image outpainting and
inpainting tasks. Despite these strides, the field grapples with inherent
challenges, including: i) inferior quality; ii) poor consistency; iii)
insufficient instrcution adherence; iv) suboptimal generation efficiency. To
address these obstacles, we present ByteEdit, an innovative feedback learning
framework meticulously designed to Boost, Comply, and Accelerate Generative
Image Editing tasks. ByteEdit seamlessly integrates image reward models
dedicated to enhancing aesthetics and image-text alignment, while also
introducing a dense, pixel-level reward model tailored to foster coherence in
the output. Furthermore, we propose a pioneering adversarial and progressive
feedback learning strategy to expedite the model's inference speed. Through
extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses
leading generative image editing products, including Adobe, Canva, and MeiTu,
in both generation quality and consistency. ByteEdit-Outpainting exhibits a
remarkable enhancement of 388% and 135% in quality and consistency,
respectively, when compared to the baseline model. Experiments also verfied
that our acceleration models maintains excellent performance results in terms
of quality and consistency.