ByteEdit: Steigern, Erfüllen und Beschleunigen der Generativen Bildbearbeitung

papers.abstract

Die jüngsten Fortschritte in der diffusionsbasierten generativen Bildbearbeitung haben eine tiefgreifende Revolution ausgelöst, die die Landschaft der Bildaußen- und -innenmalerei neu gestaltet hat. Trotz dieser Fortschritte kämpft das Feld mit inhärenten Herausforderungen, darunter: i) minderwertige Qualität; ii) schlechte Konsistenz; iii) unzureichende Befolgung von Anweisungen; iv) suboptimale Generierungseffizienz. Um diese Hindernisse zu überwinden, präsentieren wir ByteEdit, ein innovatives Feedback-Lernframework, das sorgfältig entwickelt wurde, um generative Bildbearbeitungsaufgaben zu verbessern, einzuhalten und zu beschleunigen. ByteEdit integriert nahtlos Bildbelohnungsmodelle, die der Verbesserung von Ästhetik und Bild-Text-Ausrichtung gewidmet sind, und führt auch ein dichtes, auf Pixelniveau basierendes Belohnungsmodell ein, das die Kohärenz in der Ausgabe fördern soll. Darüber hinaus schlagen wir eine wegweisende adversarielle und progressive Feedback-Lernstrategie vor, um die Inferenzgeschwindigkeit des Modells zu beschleunigen. Durch umfangreiche Benutzerbewertungen im großen Maßstab zeigen wir, dass ByteEdit führende generative Bildbearbeitungsprodukte wie Adobe, Canva und MeiTu sowohl in Bezug auf Generierungsqualität als auch Konsistenz übertrifft. ByteEdit-Outpainting zeigt eine bemerkenswerte Verbesserung von 388% bzw. 135% in Qualität und Konsistenz im Vergleich zum Basismodell. Experimente haben auch bestätigt, dass unsere Beschleunigungsmodelle hervorragende Leistungsergebnisse in Bezug auf Qualität und Konsistenz beibehalten.

English

Recent advancements in diffusion-based generative image editing have sparked a profound revolution, reshaping the landscape of image outpainting and inpainting tasks. Despite these strides, the field grapples with inherent challenges, including: i) inferior quality; ii) poor consistency; iii) insufficient instrcution adherence; iv) suboptimal generation efficiency. To address these obstacles, we present ByteEdit, an innovative feedback learning framework meticulously designed to Boost, Comply, and Accelerate Generative Image Editing tasks. ByteEdit seamlessly integrates image reward models dedicated to enhancing aesthetics and image-text alignment, while also introducing a dense, pixel-level reward model tailored to foster coherence in the output. Furthermore, we propose a pioneering adversarial and progressive feedback learning strategy to expedite the model's inference speed. Through extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses leading generative image editing products, including Adobe, Canva, and MeiTu, in both generation quality and consistency. ByteEdit-Outpainting exhibits a remarkable enhancement of 388% and 135% in quality and consistency, respectively, when compared to the baseline model. Experiments also verfied that our acceleration models maintains excellent performance results in terms of quality and consistency.

ByteEdit: Steigern, Erfüllen und Beschleunigen der Generativen Bildbearbeitung

ByteEdit: Boost, Comply and Accelerate Generative Image Editing

papers.abstract

Support