ChatPaper.aiChatPaper

Génération personnalisée d'images à partir de texte avec des modèles auto-régressifs

Personalized Text-to-Image Generation with Auto-Regressive Models

April 17, 2025
Auteurs: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI

Résumé

La synthèse d'images personnalisées est devenue une application essentielle dans la génération d'images à partir de texte, permettant la création d'images mettant en scène des sujets spécifiques dans divers contextes. Bien que les modèles de diffusion dominent ce domaine, les modèles auto-régressifs, avec leur architecture unifiée pour la modélisation du texte et de l'image, restent peu explorés pour la génération d'images personnalisées. Cet article étudie le potentiel de l'optimisation des modèles auto-régressifs pour la synthèse d'images personnalisées, en exploitant leurs capacités multimodales intrinsèques pour accomplir cette tâche. Nous proposons une stratégie d'entraînement en deux étapes qui combine l'optimisation des embeddings textuels et le réglage fin des couches de transformeurs. Nos expériences sur le modèle auto-régressif démontrent que cette méthode atteint une fidélité au sujet et un suivi des instructions comparables aux meilleures méthodes de personnalisation basées sur la diffusion. Les résultats mettent en évidence l'efficacité des modèles auto-régressifs dans la génération d'images personnalisées, ouvrant une nouvelle direction pour les recherches futures dans ce domaine.
English
Personalized image synthesis has emerged as a pivotal application in text-to-image generation, enabling the creation of images featuring specific subjects in diverse contexts. While diffusion models have dominated this domain, auto-regressive models, with their unified architecture for text and image modeling, remain underexplored for personalized image generation. This paper investigates the potential of optimizing auto-regressive models for personalized image synthesis, leveraging their inherent multimodal capabilities to perform this task. We propose a two-stage training strategy that combines optimization of text embeddings and fine-tuning of transformer layers. Our experiments on the auto-regressive model demonstrate that this method achieves comparable subject fidelity and prompt following to the leading diffusion-based personalization methods. The results highlight the effectiveness of auto-regressive models in personalized image generation, offering a new direction for future research in this area.

Summary

AI-Generated Summary

PDF183April 23, 2025