ByteEdit : Améliorer, Conformer et Accélérer l'Édition d'Images Générées

papers.abstract

Les récents progrès dans l'édition générative d'images basée sur la diffusion ont déclenché une révolution profonde, redéfinissant le paysage des tâches de prolongation et de restauration d'images. Malgré ces avancées, le domaine est confronté à des défis inhérents, notamment : i) une qualité inférieure ; ii) une faible cohérence ; iii) un respect insuffisant des instructions ; iv) une efficacité de génération sous-optimale. Pour surmonter ces obstacles, nous présentons ByteEdit, un cadre innovant d'apprentissage par feedback méticuleusement conçu pour améliorer, conformer et accélérer les tâches d'édition générative d'images. ByteEdit intègre de manière fluide des modèles de récompense d'images dédiés à l'amélioration de l'esthétique et de l'alignement image-texte, tout en introduisant un modèle de récompense dense au niveau des pixels, conçu pour favoriser la cohérence des résultats. De plus, nous proposons une stratégie pionnière d'apprentissage par feedback adversarial et progressif pour accélérer la vitesse d'inférence du modèle. Grâce à des évaluations utilisateurs à grande échelle, nous démontrons que ByteEdit surpasse les principaux produits d'édition générative d'images, notamment Adobe, Canva et MeiTu, tant en termes de qualité que de cohérence. ByteEdit-Outpainting montre une amélioration remarquable de 388 % et 135 % en qualité et en cohérence, respectivement, par rapport au modèle de référence. Les expériences ont également confirmé que nos modèles d'accélération maintiennent d'excellents résultats en termes de qualité et de cohérence.

English

Recent advancements in diffusion-based generative image editing have sparked a profound revolution, reshaping the landscape of image outpainting and inpainting tasks. Despite these strides, the field grapples with inherent challenges, including: i) inferior quality; ii) poor consistency; iii) insufficient instrcution adherence; iv) suboptimal generation efficiency. To address these obstacles, we present ByteEdit, an innovative feedback learning framework meticulously designed to Boost, Comply, and Accelerate Generative Image Editing tasks. ByteEdit seamlessly integrates image reward models dedicated to enhancing aesthetics and image-text alignment, while also introducing a dense, pixel-level reward model tailored to foster coherence in the output. Furthermore, we propose a pioneering adversarial and progressive feedback learning strategy to expedite the model's inference speed. Through extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses leading generative image editing products, including Adobe, Canva, and MeiTu, in both generation quality and consistency. ByteEdit-Outpainting exhibits a remarkable enhancement of 388% and 135% in quality and consistency, respectively, when compared to the baseline model. Experiments also verfied that our acceleration models maintains excellent performance results in terms of quality and consistency.

ByteEdit : Améliorer, Conformer et Accélérer l'Édition d'Images Générées

ByteEdit: Boost, Comply and Accelerate Generative Image Editing

papers.abstract

Support