FastComposer: Generación de Imágenes Multi-Sujeto sin Ajustes mediante Atención Localizada
FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention
May 17, 2023
Autores: Guangxuan Xiao, Tianwei Yin, William T. Freeman, Frédo Durand, Song Han
cs.AI
Resumen
Los modelos de difusión sobresalen en la generación de imágenes a partir de texto, especialmente en la generación orientada a sujetos para imágenes personalizadas. Sin embargo, los métodos existentes son ineficientes debido al ajuste específico para cada sujeto, que es computacionalmente intensivo y dificulta el despliegue eficiente. Además, los métodos actuales tienen dificultades con la generación de múltiples sujetos, ya que a menudo mezclan características entre ellos. Presentamos FastComposer, que permite una generación eficiente, personalizada y de múltiples sujetos a partir de texto sin necesidad de ajuste fino. FastComposer utiliza incrustaciones de sujetos extraídas por un codificador de imágenes para mejorar el condicionamiento textual genérico en los modelos de difusión, permitiendo la generación de imágenes personalizadas basadas en imágenes de sujetos e instrucciones textuales con solo pasadas hacia adelante. Para abordar el problema de mezcla de identidades en la generación de múltiples sujetos, FastComposer propone una supervisión de localización de atención cruzada durante el entrenamiento, asegurando que la atención de los sujetos de referencia se localice en las regiones correctas de las imágenes objetivo. El condicionamiento directo sobre las incrustaciones de sujetos resulta en un sobreajuste del sujeto. FastComposer propone un condicionamiento retardado de sujetos en el paso de eliminación de ruido para mantener tanto la identidad como la capacidad de edición en la generación de imágenes orientada a sujetos. FastComposer genera imágenes de múltiples individuos no vistos con diferentes estilos, acciones y contextos. Logra una aceleración de 300 a 2500 veces en comparación con métodos basados en ajuste fino y requiere cero almacenamiento adicional para nuevos sujetos. FastComposer allana el camino para la creación eficiente, personalizada y de alta calidad de imágenes con múltiples sujetos. El código, modelo y conjunto de datos están disponibles en https://github.com/mit-han-lab/fastcomposer.
English
Diffusion models excel at text-to-image generation, especially in
subject-driven generation for personalized images. However, existing methods
are inefficient due to the subject-specific fine-tuning, which is
computationally intensive and hampers efficient deployment. Moreover, existing
methods struggle with multi-subject generation as they often blend features
among subjects. We present FastComposer which enables efficient, personalized,
multi-subject text-to-image generation without fine-tuning. FastComposer uses
subject embeddings extracted by an image encoder to augment the generic text
conditioning in diffusion models, enabling personalized image generation based
on subject images and textual instructions with only forward passes. To address
the identity blending problem in the multi-subject generation, FastComposer
proposes cross-attention localization supervision during training, enforcing
the attention of reference subjects localized to the correct regions in the
target images. Naively conditioning on subject embeddings results in subject
overfitting. FastComposer proposes delayed subject conditioning in the
denoising step to maintain both identity and editability in subject-driven
image generation. FastComposer generates images of multiple unseen individuals
with different styles, actions, and contexts. It achieves
300times-2500times speedup compared to fine-tuning-based methods and
requires zero extra storage for new subjects. FastComposer paves the way for
efficient, personalized, and high-quality multi-subject image creation. Code,
model, and dataset are available at
https://github.com/mit-han-lab/fastcomposer.