ByteEdit: Steigern, Erfüllen und Beschleunigen der Generativen Bildbearbeitung
ByteEdit: Boost, Comply and Accelerate Generative Image Editing
April 7, 2024
Autoren: Yuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu
cs.AI
Zusammenfassung
Die jüngsten Fortschritte in der diffusionsbasierten generativen Bildbearbeitung haben eine tiefgreifende Revolution ausgelöst, die die Landschaft der Bildaußen- und -innenmalerei neu gestaltet hat. Trotz dieser Fortschritte kämpft das Feld mit inhärenten Herausforderungen, darunter: i) minderwertige Qualität; ii) schlechte Konsistenz; iii) unzureichende Befolgung von Anweisungen; iv) suboptimale Generierungseffizienz. Um diese Hindernisse zu überwinden, präsentieren wir ByteEdit, ein innovatives Feedback-Lernframework, das sorgfältig entwickelt wurde, um generative Bildbearbeitungsaufgaben zu verbessern, einzuhalten und zu beschleunigen. ByteEdit integriert nahtlos Bildbelohnungsmodelle, die der Verbesserung von Ästhetik und Bild-Text-Ausrichtung gewidmet sind, und führt auch ein dichtes, auf Pixelniveau basierendes Belohnungsmodell ein, das die Kohärenz in der Ausgabe fördern soll. Darüber hinaus schlagen wir eine wegweisende adversarielle und progressive Feedback-Lernstrategie vor, um die Inferenzgeschwindigkeit des Modells zu beschleunigen. Durch umfangreiche Benutzerbewertungen im großen Maßstab zeigen wir, dass ByteEdit führende generative Bildbearbeitungsprodukte wie Adobe, Canva und MeiTu sowohl in Bezug auf Generierungsqualität als auch Konsistenz übertrifft. ByteEdit-Outpainting zeigt eine bemerkenswerte Verbesserung von 388% bzw. 135% in Qualität und Konsistenz im Vergleich zum Basismodell. Experimente haben auch bestätigt, dass unsere Beschleunigungsmodelle hervorragende Leistungsergebnisse in Bezug auf Qualität und Konsistenz beibehalten.
English
Recent advancements in diffusion-based generative image editing have sparked
a profound revolution, reshaping the landscape of image outpainting and
inpainting tasks. Despite these strides, the field grapples with inherent
challenges, including: i) inferior quality; ii) poor consistency; iii)
insufficient instrcution adherence; iv) suboptimal generation efficiency. To
address these obstacles, we present ByteEdit, an innovative feedback learning
framework meticulously designed to Boost, Comply, and Accelerate Generative
Image Editing tasks. ByteEdit seamlessly integrates image reward models
dedicated to enhancing aesthetics and image-text alignment, while also
introducing a dense, pixel-level reward model tailored to foster coherence in
the output. Furthermore, we propose a pioneering adversarial and progressive
feedback learning strategy to expedite the model's inference speed. Through
extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses
leading generative image editing products, including Adobe, Canva, and MeiTu,
in both generation quality and consistency. ByteEdit-Outpainting exhibits a
remarkable enhancement of 388% and 135% in quality and consistency,
respectively, when compared to the baseline model. Experiments also verfied
that our acceleration models maintains excellent performance results in terms
of quality and consistency.Summary
AI-Generated Summary