ChatPaper.aiChatPaper

CustomNet: Personalização de Objetos em Zero-shot com Perspectivas Variáveis em Modelos de Difusão de Texto para Imagem

CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models

October 30, 2023
Autores: Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan
cs.AI

Resumo

A incorporação de um objeto personalizado na geração de imagens representa uma funcionalidade atraente na geração de imagens a partir de texto. No entanto, os métodos existentes baseados em otimização e codificação são limitados por desvantagens como otimização demorada, preservação insuficiente da identidade e um efeito prevalente de copiar e colar. Para superar essas limitações, apresentamos o CustomNet, uma nova abordagem de personalização de objetos que integra explicitamente capacidades de síntese de novas vistas 3D ao processo de personalização de objetos. Essa integração facilita o ajuste das relações de posição espacial e dos pontos de vista, gerando resultados diversos enquanto preserva efetivamente a identidade do objeto. Além disso, introduzimos designs refinados para permitir o controle de localização e o controle flexível do plano de fundo por meio de descrições textuais ou imagens específicas definidas pelo usuário, superando as limitações dos métodos existentes de síntese de novas vistas 3D. Aproveitamos ainda um pipeline de construção de conjuntos de dados que pode lidar melhor com objetos do mundo real e fundos complexos. Equipado com esses designs, nosso método facilita a personalização de objetos em zero-shot sem otimização em tempo de teste, oferecendo controle simultâneo sobre os pontos de vista, localização e plano de fundo. Como resultado, o CustomNet garante uma preservação aprimorada da identidade e gera resultados diversos e harmoniosos.
English
Incorporating a customized object into image generation presents an attractive feature in text-to-image generation. However, existing optimization-based and encoder-based methods are hindered by drawbacks such as time-consuming optimization, insufficient identity preservation, and a prevalent copy-pasting effect. To overcome these limitations, we introduce CustomNet, a novel object customization approach that explicitly incorporates 3D novel view synthesis capabilities into the object customization process. This integration facilitates the adjustment of spatial position relationships and viewpoints, yielding diverse outputs while effectively preserving object identity. Moreover, we introduce delicate designs to enable location control and flexible background control through textual descriptions or specific user-defined images, overcoming the limitations of existing 3D novel view synthesis methods. We further leverage a dataset construction pipeline that can better handle real-world objects and complex backgrounds. Equipped with these designs, our method facilitates zero-shot object customization without test-time optimization, offering simultaneous control over the viewpoints, location, and background. As a result, our CustomNet ensures enhanced identity preservation and generates diverse, harmonious outputs.
PDF103February 8, 2026