Generazione Personalizzata di Immagini da Testo con Modelli Auto-Regressivi

Abstract

La sintesi personalizzata di immagini è emersa come un'applicazione fondamentale nella generazione di immagini da testo, consentendo la creazione di immagini che includono soggetti specifici in contesti diversi. Sebbene i modelli di diffusione abbiano dominato questo ambito, i modelli auto-regressivi, con la loro architettura unificata per la modellazione di testo e immagini, rimangono poco esplorati per la generazione personalizzata di immagini. Questo articolo indaga il potenziale dell'ottimizzazione dei modelli auto-regressivi per la sintesi personalizzata di immagini, sfruttando le loro capacità multimodali intrinseche per eseguire tale compito. Proponiamo una strategia di addestramento in due fasi che combina l'ottimizzazione degli embedding di testo e il fine-tuning degli strati del trasformatore. I nostri esperimenti sul modello auto-regressivo dimostrano che questo metodo raggiunge una fedeltà al soggetto e un'aderenza al prompt comparabili ai principali metodi di personalizzazione basati sulla diffusione. I risultati evidenziano l'efficacia dei modelli auto-regressivi nella generazione personalizzata di immagini, offrendo una nuova direzione per la ricerca futura in questo campo.

English

Personalized image synthesis has emerged as a pivotal application in text-to-image generation, enabling the creation of images featuring specific subjects in diverse contexts. While diffusion models have dominated this domain, auto-regressive models, with their unified architecture for text and image modeling, remain underexplored for personalized image generation. This paper investigates the potential of optimizing auto-regressive models for personalized image synthesis, leveraging their inherent multimodal capabilities to perform this task. We propose a two-stage training strategy that combines optimization of text embeddings and fine-tuning of transformer layers. Our experiments on the auto-regressive model demonstrate that this method achieves comparable subject fidelity and prompt following to the leading diffusion-based personalization methods. The results highlight the effectiveness of auto-regressive models in personalized image generation, offering a new direction for future research in this area.

Generazione Personalizzata di Immagini da Testo con Modelli Auto-Regressivi

Personalized Text-to-Image Generation with Auto-Regressive Models

Abstract

Support