ByteEdit: Impulsionar, Conformar e Acelerar a Edição Generativa de Imagens
ByteEdit: Boost, Comply and Accelerate Generative Image Editing
April 7, 2024
Autores: Yuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu
cs.AI
Resumo
Os recentes avanços na edição generativa de imagens baseada em difusão desencadearam uma profunda revolução, redefinindo o cenário das tarefas de outpaint e inpaint de imagens. Apesar desses progressos, o campo enfrenta desafios inerentes, incluindo: i) qualidade inferior; ii) baixa consistência; iii) adesão insuficiente às instruções; iv) eficiência de geração subótima. Para superar esses obstáculos, apresentamos o ByteEdit, uma estrutura inovadora de aprendizado por feedback meticulosamente projetada para Impulsionar, Conformar e Acelerar tarefas de edição generativa de imagens. O ByteEdit integra de forma harmoniosa modelos de recompensa de imagem dedicados a aprimorar a estética e o alinhamento imagem-texto, além de introduzir um modelo de recompensa denso e em nível de pixel, especialmente desenvolvido para promover a coerência na saída. Além disso, propomos uma estratégia pioneira de aprendizado por feedback adversário e progressivo para acelerar a velocidade de inferência do modelo. Por meio de extensas avaliações em larga escala com usuários, demonstramos que o ByteEdit supera os principais produtos de edição generativa de imagens, incluindo Adobe, Canva e MeiTu, tanto em qualidade quanto em consistência de geração. O ByteEdit-Outpainting exibe um aprimoramento notável de 388% e 135% em qualidade e consistência, respectivamente, quando comparado ao modelo de referência. Experimentos também confirmaram que nossos modelos de aceleração mantêm excelentes resultados de desempenho em termos de qualidade e consistência.
English
Recent advancements in diffusion-based generative image editing have sparked
a profound revolution, reshaping the landscape of image outpainting and
inpainting tasks. Despite these strides, the field grapples with inherent
challenges, including: i) inferior quality; ii) poor consistency; iii)
insufficient instrcution adherence; iv) suboptimal generation efficiency. To
address these obstacles, we present ByteEdit, an innovative feedback learning
framework meticulously designed to Boost, Comply, and Accelerate Generative
Image Editing tasks. ByteEdit seamlessly integrates image reward models
dedicated to enhancing aesthetics and image-text alignment, while also
introducing a dense, pixel-level reward model tailored to foster coherence in
the output. Furthermore, we propose a pioneering adversarial and progressive
feedback learning strategy to expedite the model's inference speed. Through
extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses
leading generative image editing products, including Adobe, Canva, and MeiTu,
in both generation quality and consistency. ByteEdit-Outpainting exhibits a
remarkable enhancement of 388% and 135% in quality and consistency,
respectively, when compared to the baseline model. Experiments also verfied
that our acceleration models maintains excellent performance results in terms
of quality and consistency.