ChatPaper.aiChatPaper

DreamTuner: Ein einzelnes Bild genügt für die subjektgesteuerte Generierung

DreamTuner: Single Image is Enough for Subject-Driven Generation

December 21, 2023
Autoren: Miao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu, Qian He
cs.AI

Zusammenfassung

Diffusionsbasierte Modelle haben beeindruckende Fähigkeiten bei der Text-zu-Bild-Generierung gezeigt und werden für personalisierte Anwendungen der subjektgesteuerten Generierung erwartet, bei denen die Erzeugung von maßgeschneiderten Konzepten mit einem oder wenigen Referenzbildern erforderlich ist. Allerdings schaffen es bestehende Methoden, die auf Feinabstimmung basieren, nicht, den Kompromiss zwischen Subjektlernen und der Beibehaltung der Generierungsfähigkeiten vortrainierter Modelle auszubalancieren. Darüber hinaus neigen andere Methoden, die zusätzliche Bildkodierer verwenden, dazu, wichtige Details des Subjekts aufgrund von Kodierungskompression zu verlieren. Um diese Herausforderungen zu bewältigen, schlagen wir DreamTurner vor, eine neuartige Methode, die Referenzinformationen von grob bis fein einfügt, um subjektgesteuerte Bildgenerierung effektiver zu erreichen. DreamTurner führt einen Subjekt-Kodierer zur groben Erhaltung der Subjektidentität ein, wobei die komprimierten allgemeinen Subjektmerkmale über eine Aufmerksamkeitsschicht vor der visuell-textuellen Kreuzaufmerksamkeit eingeführt werden. Anschließend modifizieren wir die Selbstaufmerksamkeitsschichten innerhalb vortrainierter Text-zu-Bild-Modelle zu Selbst-Subjekt-Aufmerksamkeitsschichten, um die Details des Zielsubjekts zu verfeinern. Das generierte Bild fragt detaillierte Merkmale sowohl vom Referenzbild als auch von sich selbst in der Selbst-Subjekt-Aufmerksamkeit ab. Es ist hervorzuheben, dass die Selbst-Subjekt-Aufmerksamkeit eine effektive, elegante und trainingsfreie Methode zur Beibehaltung der detaillierten Merkmale von personalisierten Subjekten ist und als Plug-and-Play-Lösung während der Inferenz dienen kann. Schließlich erreicht DreamTurner mit zusätzlicher subjektgesteuerter Feinabstimmung eine bemerkenswerte Leistung bei der subjektgesteuerten Bildgenerierung, die durch Text oder andere Bedingungen wie Pose gesteuert werden kann. Weitere Details finden Sie auf der Projektseite unter https://dreamtuner-diffusion.github.io/.
English
Diffusion-based models have demonstrated impressive capabilities for text-to-image generation and are expected for personalized applications of subject-driven generation, which require the generation of customized concepts with one or a few reference images. However, existing methods based on fine-tuning fail to balance the trade-off between subject learning and the maintenance of the generation capabilities of pretrained models. Moreover, other methods that utilize additional image encoders tend to lose important details of the subject due to encoding compression. To address these challenges, we propose DreamTurner, a novel method that injects reference information from coarse to fine to achieve subject-driven image generation more effectively. DreamTurner introduces a subject-encoder for coarse subject identity preservation, where the compressed general subject features are introduced through an attention layer before visual-text cross-attention. We then modify the self-attention layers within pretrained text-to-image models to self-subject-attention layers to refine the details of the target subject. The generated image queries detailed features from both the reference image and itself in self-subject-attention. It is worth emphasizing that self-subject-attention is an effective, elegant, and training-free method for maintaining the detailed features of customized subjects and can serve as a plug-and-play solution during inference. Finally, with additional subject-driven fine-tuning, DreamTurner achieves remarkable performance in subject-driven image generation, which can be controlled by a text or other conditions such as pose. For further details, please visit the project page at https://dreamtuner-diffusion.github.io/.
PDF286December 15, 2024