RectifID: Personalizando o Fluxo Retificado com Orientação de Classificador Ancorado
RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance
May 23, 2024
Autores: Zhicheng Sun, Zhenhao Yang, Yang Jin, Haozhe Chi, Kun Xu, Kun Xu, Liwei Chen, Hao Jiang, Di Zhang, Yang Song, Kun Gai, Yadong Mu
cs.AI
Resumo
Personalizar modelos de difusão para gerar imagens que preservem a identidade a partir de imagens de referência fornecidas pelo usuário é um problema novo e intrigante. As abordagens predominantes geralmente exigem treinamento em um extenso conjunto de imagens específicas do domínio para alcançar a preservação da identidade, o que carece de flexibilidade em diferentes casos de uso. Para resolver essa questão, exploramos a orientação por classificador, uma técnica livre de treinamento que direciona modelos de difusão utilizando um classificador existente, para a geração de imagens personalizadas. Nosso estudo demonstra que, com base em um recente framework de fluxo retificado, a principal limitação da orientação por classificador tradicional, que requer um classificador especial, pode ser resolvida com uma simples solução de ponto fixo, permitindo personalização flexível com discriminadores de imagem prontamente disponíveis. Além disso, o procedimento de resolução se mostra estável quando ancorado a uma trajetória de fluxo de referência, com uma garantia de convergência. O método derivado é implementado em fluxo retificado com diferentes discriminadores de imagem prontos para uso, entregando resultados vantajosos de personalização para rostos humanos, sujeitos vivos e certos objetos. O código está disponível em https://github.com/feifeiobama/RectifID.
English
Customizing diffusion models to generate identity-preserving images from
user-provided reference images is an intriguing new problem. The prevalent
approaches typically require training on extensive domain-specific images to
achieve identity preservation, which lacks flexibility across different use
cases. To address this issue, we exploit classifier guidance, a training-free
technique that steers diffusion models using an existing classifier, for
personalized image generation. Our study shows that based on a recent rectified
flow framework, the major limitation of vanilla classifier guidance in
requiring a special classifier can be resolved with a simple fixed-point
solution, allowing flexible personalization with off-the-shelf image
discriminators. Moreover, its solving procedure proves to be stable when
anchored to a reference flow trajectory, with a convergence guarantee. The
derived method is implemented on rectified flow with different off-the-shelf
image discriminators, delivering advantageous personalization results for human
faces, live subjects, and certain objects. Code is available at
https://github.com/feifeiobama/RectifID.