DreamTuner: Eén Afbeelding is Voldoende voor Onderwerp-Gestuurde Generatie
DreamTuner: Single Image is Enough for Subject-Driven Generation
December 21, 2023
Auteurs: Miao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu, Qian He
cs.AI
Samenvatting
Diffusiegebaseerde modellen hebben indrukwekkende mogelijkheden getoond voor tekst-naar-beeldgeneratie en worden verwacht voor gepersonaliseerde toepassingen van onderwerpgedreven generatie, waarbij het genereren van aangepaste concepten met één of enkele referentiebeelden vereist is. Bestaande methoden die gebaseerd zijn op fine-tuning slagen er echter niet in om de afweging tussen onderwerpleer en het behoud van de generatiemogelijkheden van vooraf getrainde modellen in balans te brengen. Bovendien verliezen andere methoden die gebruikmaken van aanvullende beeldencoders belangrijke details van het onderwerp door compressie tijdens het encoderen. Om deze uitdagingen aan te pakken, stellen we DreamTurner voor, een nieuwe methode die referentie-informatie van grof naar fijn injecteert om onderwerpgedreven beeldgeneratie effectiever te realiseren. DreamTurner introduceert een onderwerp-encoder voor het grofweg behouden van de onderwerpidentiteit, waarbij de gecomprimeerde algemene onderwerpkenmerken worden geïntroduceerd via een aandachtlaag vóór visueel-tekst kruisattentie. Vervolgens passen we de zelf-attentielagen binnen vooraf getrainde tekst-naar-beeldmodellen aan naar zelf-onderwerp-attentielagen om de details van het doelonderwerp te verfijnen. Het gegenereerde beeld vraagt gedetailleerde kenmerken op van zowel het referentiebeeld als zichzelf in zelf-onderwerp-attentie. Het is belangrijk te benadrukken dat zelf-onderwerp-attentie een effectieve, elegante en trainingsvrije methode is voor het behouden van de gedetailleerde kenmerken van aangepaste onderwerpen en kan dienen als een plug-and-play oplossing tijdens inferentie. Ten slotte bereikt DreamTurner met aanvullende onderwerpgedreven fine-tuning opmerkelijke prestaties in onderwerpgedreven beeldgeneratie, die kan worden bestuurd door tekst of andere condities zoals pose. Voor meer details kunt u de projectpagina bezoeken op https://dreamtuner-diffusion.github.io/.
English
Diffusion-based models have demonstrated impressive capabilities for
text-to-image generation and are expected for personalized applications of
subject-driven generation, which require the generation of customized concepts
with one or a few reference images. However, existing methods based on
fine-tuning fail to balance the trade-off between subject learning and the
maintenance of the generation capabilities of pretrained models. Moreover,
other methods that utilize additional image encoders tend to lose important
details of the subject due to encoding compression. To address these
challenges, we propose DreamTurner, a novel method that injects reference
information from coarse to fine to achieve subject-driven image generation more
effectively. DreamTurner introduces a subject-encoder for coarse subject
identity preservation, where the compressed general subject features are
introduced through an attention layer before visual-text cross-attention. We
then modify the self-attention layers within pretrained text-to-image models to
self-subject-attention layers to refine the details of the target subject. The
generated image queries detailed features from both the reference image and
itself in self-subject-attention. It is worth emphasizing that
self-subject-attention is an effective, elegant, and training-free method for
maintaining the detailed features of customized subjects and can serve as a
plug-and-play solution during inference. Finally, with additional
subject-driven fine-tuning, DreamTurner achieves remarkable performance in
subject-driven image generation, which can be controlled by a text or other
conditions such as pose. For further details, please visit the project page at
https://dreamtuner-diffusion.github.io/.