ByteEdit: Impulsionar, Conformar e Acelerar a Edição Generativa de Imagens

Resumo

Os recentes avanços na edição generativa de imagens baseada em difusão desencadearam uma profunda revolução, redefinindo o cenário das tarefas de outpaint e inpaint de imagens. Apesar desses progressos, o campo enfrenta desafios inerentes, incluindo: i) qualidade inferior; ii) baixa consistência; iii) adesão insuficiente às instruções; iv) eficiência de geração subótima. Para superar esses obstáculos, apresentamos o ByteEdit, uma estrutura inovadora de aprendizado por feedback meticulosamente projetada para Impulsionar, Conformar e Acelerar tarefas de edição generativa de imagens. O ByteEdit integra de forma harmoniosa modelos de recompensa de imagem dedicados a aprimorar a estética e o alinhamento imagem-texto, além de introduzir um modelo de recompensa denso e em nível de pixel, especialmente desenvolvido para promover a coerência na saída. Além disso, propomos uma estratégia pioneira de aprendizado por feedback adversário e progressivo para acelerar a velocidade de inferência do modelo. Por meio de extensas avaliações em larga escala com usuários, demonstramos que o ByteEdit supera os principais produtos de edição generativa de imagens, incluindo Adobe, Canva e MeiTu, tanto em qualidade quanto em consistência de geração. O ByteEdit-Outpainting exibe um aprimoramento notável de 388% e 135% em qualidade e consistência, respectivamente, quando comparado ao modelo de referência. Experimentos também confirmaram que nossos modelos de aceleração mantêm excelentes resultados de desempenho em termos de qualidade e consistência.

English

Recent advancements in diffusion-based generative image editing have sparked a profound revolution, reshaping the landscape of image outpainting and inpainting tasks. Despite these strides, the field grapples with inherent challenges, including: i) inferior quality; ii) poor consistency; iii) insufficient instrcution adherence; iv) suboptimal generation efficiency. To address these obstacles, we present ByteEdit, an innovative feedback learning framework meticulously designed to Boost, Comply, and Accelerate Generative Image Editing tasks. ByteEdit seamlessly integrates image reward models dedicated to enhancing aesthetics and image-text alignment, while also introducing a dense, pixel-level reward model tailored to foster coherence in the output. Furthermore, we propose a pioneering adversarial and progressive feedback learning strategy to expedite the model's inference speed. Through extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses leading generative image editing products, including Adobe, Canva, and MeiTu, in both generation quality and consistency. ByteEdit-Outpainting exhibits a remarkable enhancement of 388% and 135% in quality and consistency, respectively, when compared to the baseline model. Experiments also verfied that our acceleration models maintains excellent performance results in terms of quality and consistency.

ByteEdit: Impulsionar, Conformar e Acelerar a Edição Generativa de Imagens

ByteEdit: Boost, Comply and Accelerate Generative Image Editing

Resumo

Support