ChatPaper.aiChatPaper

CustomNet: Personalización de objetos con vistas variables en modelos de difusión de texto a imagen con capacidad zero-shot

CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models

October 30, 2023
Autores: Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan
cs.AI

Resumen

Incorporar un objeto personalizado en la generación de imágenes representa una característica atractiva en la generación de texto a imagen. Sin embargo, los métodos existentes basados en optimización y codificación se ven limitados por inconvenientes como la optimización que consume mucho tiempo, la preservación insuficiente de la identidad y un efecto predominante de copiar y pegar. Para superar estas limitaciones, presentamos CustomNet, un enfoque novedoso de personalización de objetos que incorpora explícitamente capacidades de síntesis de vistas novedosas en 3D en el proceso de personalización de objetos. Esta integración facilita el ajuste de las relaciones de posición espacial y los puntos de vista, generando resultados diversos mientras se preserva eficazmente la identidad del objeto. Además, introducimos diseños refinados que permiten el control de la ubicación y un control flexible del fondo mediante descripciones textuales o imágenes específicas definidas por el usuario, superando las limitaciones de los métodos existentes de síntesis de vistas novedosas en 3D. También aprovechamos una canalización de construcción de conjuntos de datos que puede manejar mejor objetos del mundo real y fondos complejos. Equipado con estos diseños, nuestro método facilita la personalización de objetos en modo zero-shot sin optimización en tiempo de prueba, ofreciendo control simultáneo sobre los puntos de vista, la ubicación y el fondo. Como resultado, nuestro CustomNet garantiza una preservación mejorada de la identidad y genera resultados diversos y armoniosos.
English
Incorporating a customized object into image generation presents an attractive feature in text-to-image generation. However, existing optimization-based and encoder-based methods are hindered by drawbacks such as time-consuming optimization, insufficient identity preservation, and a prevalent copy-pasting effect. To overcome these limitations, we introduce CustomNet, a novel object customization approach that explicitly incorporates 3D novel view synthesis capabilities into the object customization process. This integration facilitates the adjustment of spatial position relationships and viewpoints, yielding diverse outputs while effectively preserving object identity. Moreover, we introduce delicate designs to enable location control and flexible background control through textual descriptions or specific user-defined images, overcoming the limitations of existing 3D novel view synthesis methods. We further leverage a dataset construction pipeline that can better handle real-world objects and complex backgrounds. Equipped with these designs, our method facilitates zero-shot object customization without test-time optimization, offering simultaneous control over the viewpoints, location, and background. As a result, our CustomNet ensures enhanced identity preservation and generates diverse, harmonious outputs.
PDF103December 15, 2024