Génération personnalisée d'images à partir de texte avec des modèles auto-régressifs
Personalized Text-to-Image Generation with Auto-Regressive Models
April 17, 2025
Auteurs: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI
Résumé
La synthèse d'images personnalisées est devenue une application essentielle dans la génération d'images à partir de texte, permettant la création d'images mettant en scène des sujets spécifiques dans divers contextes. Bien que les modèles de diffusion dominent ce domaine, les modèles auto-régressifs, avec leur architecture unifiée pour la modélisation du texte et de l'image, restent peu explorés pour la génération d'images personnalisées. Cet article étudie le potentiel de l'optimisation des modèles auto-régressifs pour la synthèse d'images personnalisées, en exploitant leurs capacités multimodales intrinsèques pour accomplir cette tâche. Nous proposons une stratégie d'entraînement en deux étapes qui combine l'optimisation des embeddings textuels et le réglage fin des couches de transformeurs. Nos expériences sur le modèle auto-régressif démontrent que cette méthode atteint une fidélité au sujet et un suivi des instructions comparables aux meilleures méthodes de personnalisation basées sur la diffusion. Les résultats mettent en évidence l'efficacité des modèles auto-régressifs dans la génération d'images personnalisées, ouvrant une nouvelle direction pour les recherches futures dans ce domaine.
English
Personalized image synthesis has emerged as a pivotal application in
text-to-image generation, enabling the creation of images featuring specific
subjects in diverse contexts. While diffusion models have dominated this
domain, auto-regressive models, with their unified architecture for text and
image modeling, remain underexplored for personalized image generation. This
paper investigates the potential of optimizing auto-regressive models for
personalized image synthesis, leveraging their inherent multimodal capabilities
to perform this task. We propose a two-stage training strategy that combines
optimization of text embeddings and fine-tuning of transformer layers. Our
experiments on the auto-regressive model demonstrate that this method achieves
comparable subject fidelity and prompt following to the leading diffusion-based
personalization methods. The results highlight the effectiveness of
auto-regressive models in personalized image generation, offering a new
direction for future research in this area.Summary
AI-Generated Summary