ByteEdit: 생성적 이미지 편집의 향상, 준수 및 가속화
ByteEdit: Boost, Comply and Accelerate Generative Image Editing
April 7, 2024
저자: Yuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu
cs.AI
초록
확산 기반 생성형 이미지 편집의 최근 발전은 이미지 아웃페인팅과 인페인팅 작업의 지형을 재구성하며 심오한 혁명을 일으켰습니다. 그러나 이러한 진전에도 불구하고, 이 분야는 다음과 같은 본질적인 과제에 직면해 있습니다: i) 낮은 품질; ii) 불충분한 일관성; iii) 지시 준수 부족; iv) 최적화되지 않은 생성 효율성. 이러한 장애물을 해결하기 위해, 우리는 생성형 이미지 편집 작업을 강화, 준수, 가속화하기 위해 세심하게 설계된 혁신적인 피드백 학습 프레임워크인 ByteEdit를 제안합니다. ByteEdit는 미학과 이미지-텍스트 정렬을 향상시키기 위한 이미지 보상 모델을 원활하게 통합하며, 출력의 일관성을 촉진하기 위해 픽셀 수준의 조밀한 보상 모델도 도입합니다. 더 나아가, 모델의 추론 속도를 가속화하기 위한 선구적인 적대적 및 점진적 피드백 학습 전략을 제안합니다. 대규모 사용자 평가를 통해, ByteEdit가 Adobe, Canva, MeiTu를 포함한 주요 생성형 이미지 편집 제품들을 생성 품질과 일관성 모두에서 능가함을 입증했습니다. ByteEdit-아웃페인팅은 기준 모델 대비 품질과 일관성에서 각각 388%와 135%의 놀라운 향상을 보여줍니다. 실험을 통해 우리의 가속화 모델이 품질과 일관성 측면에서 우수한 성능을 유지함을 확인했습니다.
English
Recent advancements in diffusion-based generative image editing have sparked
a profound revolution, reshaping the landscape of image outpainting and
inpainting tasks. Despite these strides, the field grapples with inherent
challenges, including: i) inferior quality; ii) poor consistency; iii)
insufficient instrcution adherence; iv) suboptimal generation efficiency. To
address these obstacles, we present ByteEdit, an innovative feedback learning
framework meticulously designed to Boost, Comply, and Accelerate Generative
Image Editing tasks. ByteEdit seamlessly integrates image reward models
dedicated to enhancing aesthetics and image-text alignment, while also
introducing a dense, pixel-level reward model tailored to foster coherence in
the output. Furthermore, we propose a pioneering adversarial and progressive
feedback learning strategy to expedite the model's inference speed. Through
extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses
leading generative image editing products, including Adobe, Canva, and MeiTu,
in both generation quality and consistency. ByteEdit-Outpainting exhibits a
remarkable enhancement of 388% and 135% in quality and consistency,
respectively, when compared to the baseline model. Experiments also verfied
that our acceleration models maintains excellent performance results in terms
of quality and consistency.Summary
AI-Generated Summary