ChatPaper.aiChatPaper

PhotoVerse: 텍스트-이미지 확산 모델을 활용한 튜닝 없는 이미지 커스터마이징

PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models

September 11, 2023
저자: Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng
cs.AI

초록

개인화된 텍스트-이미지 생성은 사용자가 특정 개념과 프롬프트를 기반으로 맞춤형 이미지를 생성할 수 있게 해주는 강력하고 수요가 많은 도구로 부상했습니다. 그러나 기존의 개인화 접근 방식은 긴 튜닝 시간, 큰 저장 공간 요구, 개별 신원당 다수의 입력 이미지 필요, 그리고 신원 보존과 편집 가능성의 한계 등 여러 가지 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 PhotoVerse를 제안합니다. 이 혁신적인 방법론은 텍스트와 이미지 영역 모두에서 이중 분기 조건화 메커니즘을 통합하여 이미지 생성 과정에 효과적인 제어를 제공합니다. 더불어, 우리는 훈련 중 신원 보존을 강화하기 위한 새로운 요소로 얼굴 신원 손실을 도입했습니다. 특히, 우리가 제안한 PhotoVerse는 테스트 시간 튜닝의 필요성을 없애고, 대상 신원의 단일 얼굴 사진만을 요구함으로써 이미지 생성과 관련된 자원 비용을 크게 줄였습니다. 단일 훈련 단계 이후, 우리의 접근 방식은 단 몇 초 만에 고품질 이미지를 생성할 수 있게 합니다. 또한, 우리의 방법은 다양한 장면과 스타일을 포함한 다양한 이미지를 생성할 수 있습니다. 광범위한 평가를 통해, 우리의 접근 방식이 신원 보존과 편집 가능성이라는 이중 목표를 달성하는 우수한 성능을 보여줌을 입증했습니다. 프로젝트 페이지: https://photoverse2d.github.io/
English
Personalized text-to-image generation has emerged as a powerful and sought-after tool, empowering users to create customized images based on their specific concepts and prompts. However, existing approaches to personalization encounter multiple challenges, including long tuning times, large storage requirements, the necessity for multiple input images per identity, and limitations in preserving identity and editability. To address these obstacles, we present PhotoVerse, an innovative methodology that incorporates a dual-branch conditioning mechanism in both text and image domains, providing effective control over the image generation process. Furthermore, we introduce facial identity loss as a novel component to enhance the preservation of identity during training. Remarkably, our proposed PhotoVerse eliminates the need for test time tuning and relies solely on a single facial photo of the target identity, significantly reducing the resource cost associated with image generation. After a single training phase, our approach enables generating high-quality images within only a few seconds. Moreover, our method can produce diverse images that encompass various scenes and styles. The extensive evaluation demonstrates the superior performance of our approach, which achieves the dual objectives of preserving identity and facilitating editability. Project page: https://photoverse2d.github.io/
PDF506December 15, 2024