Personalisierte Text-zu-Bild-Generierung mit autoregressiven Modellen
Personalized Text-to-Image Generation with Auto-Regressive Models
April 17, 2025
Autoren: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI
Zusammenfassung
Die personalisierte Bildsynthese hat sich als eine zentrale Anwendung in der Text-zu-Bild-Generierung etabliert, die die Erstellung von Bildern mit spezifischen Motiven in verschiedenen Kontexten ermöglicht. Während Diffusionsmodelle diesen Bereich dominieren, bleiben autoregressive Modelle mit ihrer einheitlichen Architektur für die Modellierung von Text und Bildern für die personalisierte Bildgenerierung weitgehend unerforscht. Diese Arbeit untersucht das Potenzial der Optimierung autoregressiver Modelle für die personalisierte Bildsynthese, indem ihre inhärenten multimodalen Fähigkeiten genutzt werden, um diese Aufgabe zu bewältigen. Wir schlagen eine zweistufige Trainingsstrategie vor, die die Optimierung von Text-Einbettungen und das Feinabstimmen von Transformer-Schichten kombiniert. Unsere Experimente mit dem autoregressiven Modell zeigen, dass diese Methode eine vergleichbare Motivtreue und Prompt-Befolgung wie die führenden diffusionsbasierten Personalisierungsmethoden erreicht. Die Ergebnisse unterstreichen die Effektivität autoregressiver Modelle in der personalisierten Bildgenerierung und bieten eine neue Richtung für zukünftige Forschungen in diesem Bereich.
English
Personalized image synthesis has emerged as a pivotal application in
text-to-image generation, enabling the creation of images featuring specific
subjects in diverse contexts. While diffusion models have dominated this
domain, auto-regressive models, with their unified architecture for text and
image modeling, remain underexplored for personalized image generation. This
paper investigates the potential of optimizing auto-regressive models for
personalized image synthesis, leveraging their inherent multimodal capabilities
to perform this task. We propose a two-stage training strategy that combines
optimization of text embeddings and fine-tuning of transformer layers. Our
experiments on the auto-regressive model demonstrate that this method achieves
comparable subject fidelity and prompt following to the leading diffusion-based
personalization methods. The results highlight the effectiveness of
auto-regressive models in personalized image generation, offering a new
direction for future research in this area.Summary
AI-Generated Summary