ChatPaper.aiChatPaper

CustomNet: 텍스트-이미지 확산 모델에서 다양한 시점을 활용한 제로샷 객체 커스터마이징

CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models

October 30, 2023
저자: Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan
cs.AI

초록

이미지 생성에 맞춤형 객체를 통합하는 것은 텍스트-이미지 생성에서 매력적인 기능을 제공합니다. 그러나 기존의 최적화 기반 및 인코더 기반 방법들은 시간 소모적인 최적화, 불충분한 정체성 보존, 그리고 흔히 발생하는 복사-붙여넣기 효과와 같은 단점에 의해 제한됩니다. 이러한 한계를 극복하기 위해, 우리는 3D 새로운 시점 합성 능력을 객체 맞춤화 과정에 명시적으로 통합한 새로운 객체 맞춤화 접근법인 CustomNet을 소개합니다. 이 통합은 공간적 위치 관계와 시점을 조정할 수 있게 하여, 객체의 정체성을 효과적으로 보존하면서 다양한 출력을 생성합니다. 또한, 우리는 텍스트 설명이나 특정 사용자 정의 이미지를 통해 위치 제어와 유연한 배경 제어를 가능하게 하는 세심한 설계를 도입하여, 기존 3D 새로운 시점 합성 방법의 한계를 극복합니다. 더 나아가, 우리는 실제 세계의 객체와 복잡한 배경을 더 잘 처리할 수 있는 데이터셋 구축 파이프라인을 활용합니다. 이러한 설계를 통해, 우리의 방법은 테스트 시간 최적화 없이도 제로샷 객체 맞춤화를 가능하게 하며, 동시에 시점, 위치, 배경을 제어할 수 있습니다. 결과적으로, 우리의 CustomNet은 향상된 정체성 보존을 보장하고 조화로운 다양한 출력을 생성합니다.
English
Incorporating a customized object into image generation presents an attractive feature in text-to-image generation. However, existing optimization-based and encoder-based methods are hindered by drawbacks such as time-consuming optimization, insufficient identity preservation, and a prevalent copy-pasting effect. To overcome these limitations, we introduce CustomNet, a novel object customization approach that explicitly incorporates 3D novel view synthesis capabilities into the object customization process. This integration facilitates the adjustment of spatial position relationships and viewpoints, yielding diverse outputs while effectively preserving object identity. Moreover, we introduce delicate designs to enable location control and flexible background control through textual descriptions or specific user-defined images, overcoming the limitations of existing 3D novel view synthesis methods. We further leverage a dataset construction pipeline that can better handle real-world objects and complex backgrounds. Equipped with these designs, our method facilitates zero-shot object customization without test-time optimization, offering simultaneous control over the viewpoints, location, and background. As a result, our CustomNet ensures enhanced identity preservation and generates diverse, harmonious outputs.
PDF103December 15, 2024