Generazione Personalizzata di Immagini da Testo con Modelli Auto-Regressivi
Personalized Text-to-Image Generation with Auto-Regressive Models
April 17, 2025
Autori: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI
Abstract
La sintesi personalizzata di immagini è emersa come un'applicazione fondamentale nella generazione di immagini da testo, consentendo la creazione di immagini che includono soggetti specifici in contesti diversi. Sebbene i modelli di diffusione abbiano dominato questo ambito, i modelli auto-regressivi, con la loro architettura unificata per la modellazione di testo e immagini, rimangono poco esplorati per la generazione personalizzata di immagini. Questo articolo indaga il potenziale dell'ottimizzazione dei modelli auto-regressivi per la sintesi personalizzata di immagini, sfruttando le loro capacità multimodali intrinseche per eseguire tale compito. Proponiamo una strategia di addestramento in due fasi che combina l'ottimizzazione degli embedding di testo e il fine-tuning degli strati del trasformatore. I nostri esperimenti sul modello auto-regressivo dimostrano che questo metodo raggiunge una fedeltà al soggetto e un'aderenza al prompt comparabili ai principali metodi di personalizzazione basati sulla diffusione. I risultati evidenziano l'efficacia dei modelli auto-regressivi nella generazione personalizzata di immagini, offrendo una nuova direzione per la ricerca futura in questo campo.
English
Personalized image synthesis has emerged as a pivotal application in
text-to-image generation, enabling the creation of images featuring specific
subjects in diverse contexts. While diffusion models have dominated this
domain, auto-regressive models, with their unified architecture for text and
image modeling, remain underexplored for personalized image generation. This
paper investigates the potential of optimizing auto-regressive models for
personalized image synthesis, leveraging their inherent multimodal capabilities
to perform this task. We propose a two-stage training strategy that combines
optimization of text embeddings and fine-tuning of transformer layers. Our
experiments on the auto-regressive model demonstrate that this method achieves
comparable subject fidelity and prompt following to the leading diffusion-based
personalization methods. The results highlight the effectiveness of
auto-regressive models in personalized image generation, offering a new
direction for future research in this area.