ChatPaper.aiChatPaper

ByteEdit: Potenciar, Cumplir y Acelerar la Edición Generativa de Imágenes

ByteEdit: Boost, Comply and Accelerate Generative Image Editing

April 7, 2024
Autores: Yuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu
cs.AI

Resumen

Los recientes avances en la edición generativa de imágenes basada en difusión han desencadenado una profunda revolución, transformando el panorama de las tareas de extrapolación y restauración de imágenes. A pesar de estos progresos, el campo enfrenta desafíos inherentes, que incluyen: i) calidad inferior; ii) consistencia deficiente; iii) adherencia insuficiente a las instrucciones; iv) eficiencia de generación subóptima. Para abordar estos obstáculos, presentamos ByteEdit, un innovador marco de aprendizaje por retroalimentación meticulosamente diseñado para potenciar, cumplir y acelerar las tareas de edición generativa de imágenes. ByteEdit integra de manera fluida modelos de recompensa de imágenes dedicados a mejorar la estética y la alineación imagen-texto, al mismo tiempo que introduce un modelo de recompensa denso a nivel de píxeles, diseñado para fomentar la coherencia en la salida. Además, proponemos una estrategia pionera de aprendizaje por retroalimentación adversaria y progresiva para acelerar la velocidad de inferencia del modelo. A través de extensas evaluaciones a gran escala con usuarios, demostramos que ByteEdit supera a los principales productos de edición generativa de imágenes, incluyendo Adobe, Canva y MeiTu, tanto en calidad como en consistencia de generación. ByteEdit-Outpainting exhibe una mejora notable del 388% y 135% en calidad y consistencia, respectivamente, en comparación con el modelo base. Los experimentos también verificaron que nuestros modelos de aceleración mantienen resultados de rendimiento excelentes en términos de calidad y consistencia.
English
Recent advancements in diffusion-based generative image editing have sparked a profound revolution, reshaping the landscape of image outpainting and inpainting tasks. Despite these strides, the field grapples with inherent challenges, including: i) inferior quality; ii) poor consistency; iii) insufficient instrcution adherence; iv) suboptimal generation efficiency. To address these obstacles, we present ByteEdit, an innovative feedback learning framework meticulously designed to Boost, Comply, and Accelerate Generative Image Editing tasks. ByteEdit seamlessly integrates image reward models dedicated to enhancing aesthetics and image-text alignment, while also introducing a dense, pixel-level reward model tailored to foster coherence in the output. Furthermore, we propose a pioneering adversarial and progressive feedback learning strategy to expedite the model's inference speed. Through extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses leading generative image editing products, including Adobe, Canva, and MeiTu, in both generation quality and consistency. ByteEdit-Outpainting exhibits a remarkable enhancement of 388% and 135% in quality and consistency, respectively, when compared to the baseline model. Experiments also verfied that our acceleration models maintains excellent performance results in terms of quality and consistency.

Summary

AI-Generated Summary

PDF271December 15, 2024