ByteEdit: Verbeter, Voldoe en Versnel Generatieve Beeldbewerking
ByteEdit: Boost, Comply and Accelerate Generative Image Editing
April 7, 2024
Auteurs: Yuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu
cs.AI
Samenvatting
Recente vooruitgang in diffusiegebaseerde generatieve beeldbewerking heeft een diepgaande revolutie teweeggebracht, waardoor het landschap van beelduitbreiding en -inpaintings taken is hervormd. Ondanks deze vooruitgang worstelt het veld met inherente uitdagingen, waaronder: i) inferieure kwaliteit; ii) slechte consistentie; iii) onvoldoende instructievolging; iv) suboptimale generatie-efficiëntie. Om deze obstakels aan te pakken, presenteren we ByteEdit, een innovatief feedback-leerkader dat zorgvuldig is ontworpen om generatieve beeldbewerkingstaken te verbeteren, te laten voldoen en te versnellen. ByteEdit integreert naadloos beeldbeloningsmodellen die gericht zijn op het verbeteren van esthetiek en beeld-tekst-afstemming, terwijl het ook een dicht, pixel-niveau beloningsmodel introduceert dat is afgestemd op het bevorderen van samenhang in de output. Bovendien stellen we een baanbrekende adversariële en progressieve feedback-leerstrategie voor om de inferentiesnelheid van het model te versnellen. Door uitgebreide grootschalige gebruikersevaluaties tonen we aan dat ByteEdit toonaangevende generatieve beeldbewerkingproducten, waaronder Adobe, Canva en MeiTu, overtreft in zowel generatiekwaliteit als consistentie. ByteEdit-Outpainting vertoont een opmerkelijke verbetering van 388% en 135% in kwaliteit en consistentie, respectievelijk, in vergelijking met het basismodel. Experimenten hebben ook bevestigd dat onze versnellingsmodellen uitstekende prestatieresultaten behouden wat betreft kwaliteit en consistentie.
English
Recent advancements in diffusion-based generative image editing have sparked
a profound revolution, reshaping the landscape of image outpainting and
inpainting tasks. Despite these strides, the field grapples with inherent
challenges, including: i) inferior quality; ii) poor consistency; iii)
insufficient instrcution adherence; iv) suboptimal generation efficiency. To
address these obstacles, we present ByteEdit, an innovative feedback learning
framework meticulously designed to Boost, Comply, and Accelerate Generative
Image Editing tasks. ByteEdit seamlessly integrates image reward models
dedicated to enhancing aesthetics and image-text alignment, while also
introducing a dense, pixel-level reward model tailored to foster coherence in
the output. Furthermore, we propose a pioneering adversarial and progressive
feedback learning strategy to expedite the model's inference speed. Through
extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses
leading generative image editing products, including Adobe, Canva, and MeiTu,
in both generation quality and consistency. ByteEdit-Outpainting exhibits a
remarkable enhancement of 388% and 135% in quality and consistency,
respectively, when compared to the baseline model. Experiments also verfied
that our acceleration models maintains excellent performance results in terms
of quality and consistency.