ChatPaper.aiChatPaper

Personalisierte Text-zu-Bild-Generierung mit autoregressiven Modellen

Personalized Text-to-Image Generation with Auto-Regressive Models

April 17, 2025
Autoren: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI

Zusammenfassung

Die personalisierte Bildsynthese hat sich als eine zentrale Anwendung in der Text-zu-Bild-Generierung etabliert, die die Erstellung von Bildern mit spezifischen Motiven in verschiedenen Kontexten ermöglicht. Während Diffusionsmodelle diesen Bereich dominieren, bleiben autoregressive Modelle mit ihrer einheitlichen Architektur für die Modellierung von Text und Bildern für die personalisierte Bildgenerierung weitgehend unerforscht. Diese Arbeit untersucht das Potenzial der Optimierung autoregressiver Modelle für die personalisierte Bildsynthese, indem ihre inhärenten multimodalen Fähigkeiten genutzt werden, um diese Aufgabe zu bewältigen. Wir schlagen eine zweistufige Trainingsstrategie vor, die die Optimierung von Text-Einbettungen und das Feinabstimmen von Transformer-Schichten kombiniert. Unsere Experimente mit dem autoregressiven Modell zeigen, dass diese Methode eine vergleichbare Motivtreue und Prompt-Befolgung wie die führenden diffusionsbasierten Personalisierungsmethoden erreicht. Die Ergebnisse unterstreichen die Effektivität autoregressiver Modelle in der personalisierten Bildgenerierung und bieten eine neue Richtung für zukünftige Forschungen in diesem Bereich.
English
Personalized image synthesis has emerged as a pivotal application in text-to-image generation, enabling the creation of images featuring specific subjects in diverse contexts. While diffusion models have dominated this domain, auto-regressive models, with their unified architecture for text and image modeling, remain underexplored for personalized image generation. This paper investigates the potential of optimizing auto-regressive models for personalized image synthesis, leveraging their inherent multimodal capabilities to perform this task. We propose a two-stage training strategy that combines optimization of text embeddings and fine-tuning of transformer layers. Our experiments on the auto-regressive model demonstrate that this method achieves comparable subject fidelity and prompt following to the leading diffusion-based personalization methods. The results highlight the effectiveness of auto-regressive models in personalized image generation, offering a new direction for future research in this area.

Summary

AI-Generated Summary

PDF183April 23, 2025