ByteEdit : Améliorer, Conformer et Accélérer l'Édition d'Images Générées
ByteEdit: Boost, Comply and Accelerate Generative Image Editing
April 7, 2024
Auteurs: Yuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu
cs.AI
Résumé
Les récents progrès dans l'édition générative d'images basée sur la diffusion ont déclenché une révolution profonde, redéfinissant le paysage des tâches de prolongation et de restauration d'images. Malgré ces avancées, le domaine est confronté à des défis inhérents, notamment : i) une qualité inférieure ; ii) une faible cohérence ; iii) un respect insuffisant des instructions ; iv) une efficacité de génération sous-optimale. Pour surmonter ces obstacles, nous présentons ByteEdit, un cadre innovant d'apprentissage par feedback méticuleusement conçu pour améliorer, conformer et accélérer les tâches d'édition générative d'images. ByteEdit intègre de manière fluide des modèles de récompense d'images dédiés à l'amélioration de l'esthétique et de l'alignement image-texte, tout en introduisant un modèle de récompense dense au niveau des pixels, conçu pour favoriser la cohérence des résultats. De plus, nous proposons une stratégie pionnière d'apprentissage par feedback adversarial et progressif pour accélérer la vitesse d'inférence du modèle. Grâce à des évaluations utilisateurs à grande échelle, nous démontrons que ByteEdit surpasse les principaux produits d'édition générative d'images, notamment Adobe, Canva et MeiTu, tant en termes de qualité que de cohérence. ByteEdit-Outpainting montre une amélioration remarquable de 388 % et 135 % en qualité et en cohérence, respectivement, par rapport au modèle de référence. Les expériences ont également confirmé que nos modèles d'accélération maintiennent d'excellents résultats en termes de qualité et de cohérence.
English
Recent advancements in diffusion-based generative image editing have sparked
a profound revolution, reshaping the landscape of image outpainting and
inpainting tasks. Despite these strides, the field grapples with inherent
challenges, including: i) inferior quality; ii) poor consistency; iii)
insufficient instrcution adherence; iv) suboptimal generation efficiency. To
address these obstacles, we present ByteEdit, an innovative feedback learning
framework meticulously designed to Boost, Comply, and Accelerate Generative
Image Editing tasks. ByteEdit seamlessly integrates image reward models
dedicated to enhancing aesthetics and image-text alignment, while also
introducing a dense, pixel-level reward model tailored to foster coherence in
the output. Furthermore, we propose a pioneering adversarial and progressive
feedback learning strategy to expedite the model's inference speed. Through
extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses
leading generative image editing products, including Adobe, Canva, and MeiTu,
in both generation quality and consistency. ByteEdit-Outpainting exhibits a
remarkable enhancement of 388% and 135% in quality and consistency,
respectively, when compared to the baseline model. Experiments also verfied
that our acceleration models maintains excellent performance results in terms
of quality and consistency.Summary
AI-Generated Summary