Gerando Dados Sintéticos de Múltiplas Imagens para Personalização Texto-para-Imagem
Generating Multi-Image Synthetic Data for Text-to-Image Customization
February 3, 2025
Autores: Nupur Kumari, Xi Yin, Jun-Yan Zhu, Ishan Misra, Samaneh Azadi
cs.AI
Resumo
A personalização de modelos texto-imagem permite aos usuários inserir conceitos personalizados e gerar os conceitos em ambientes não vistos. Métodos existentes geralmente dependem de otimização custosa no momento do teste ou treinam codificadores em conjuntos de dados de treinamento de única imagem sem supervisão multi-imagem, resultando em qualidade de imagem inferior. Propomos uma abordagem simples que aborda ambas as limitações. Primeiramente, aproveitamos modelos texto-imagem existentes e conjuntos de dados 3D para criar um Conjunto de Dados de Personalização Sintética (SynCD) de alta qualidade, consistindo de múltiplas imagens do mesmo objeto em diferentes iluminações, fundos e poses. Em seguida, propomos uma nova arquitetura de codificador baseada em mecanismos de atenção compartilhada que incorporam melhor detalhes visuais refinados das imagens de entrada. Por fim, propomos uma nova técnica de inferência que mitiga problemas de superexposição durante a inferência, normalizando os vetores de orientação de texto e imagem. Através de experimentos extensivos, demonstramos que nosso modelo, treinado no conjunto de dados sintético com o codificador e algoritmo de inferência propostos, supera os métodos existentes sem ajuste em benchmarks padrão de personalização.
English
Customization of text-to-image models enables users to insert custom concepts
and generate the concepts in unseen settings. Existing methods either rely on
costly test-time optimization or train encoders on single-image training
datasets without multi-image supervision, leading to worse image quality. We
propose a simple approach that addresses both limitations. We first leverage
existing text-to-image models and 3D datasets to create a high-quality
Synthetic Customization Dataset (SynCD) consisting of multiple images of the
same object in different lighting, backgrounds, and poses. We then propose a
new encoder architecture based on shared attention mechanisms that better
incorporate fine-grained visual details from input images. Finally, we propose
a new inference technique that mitigates overexposure issues during inference
by normalizing the text and image guidance vectors. Through extensive
experiments, we show that our model, trained on the synthetic dataset with the
proposed encoder and inference algorithm, outperforms existing tuning-free
methods on standard customization benchmarks.Summary
AI-Generated Summary