Generación Personalizada de Texto a Imagen con Modelos Auto-Regresivos
Personalized Text-to-Image Generation with Auto-Regressive Models
April 17, 2025
Autores: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI
Resumen
La síntesis de imágenes personalizadas ha surgido como una aplicación fundamental en la generación de imágenes a partir de texto, permitiendo la creación de imágenes que incluyen sujetos específicos en diversos contextos. Si bien los modelos de difusión han dominado este ámbito, los modelos auto-regresivos, con su arquitectura unificada para el modelado de texto e imágenes, siguen siendo poco explorados para la generación de imágenes personalizadas. Este artículo investiga el potencial de optimizar modelos auto-regresivos para la síntesis de imágenes personalizadas, aprovechando sus capacidades multimodales inherentes para realizar esta tarea. Proponemos una estrategia de entrenamiento en dos etapas que combina la optimización de incrustaciones de texto y el ajuste fino de capas de transformadores. Nuestros experimentos con el modelo auto-regresivo demuestran que este método logra una fidelidad al sujeto y seguimiento de indicaciones comparables a los principales métodos de personalización basados en difusión. Los resultados destacan la efectividad de los modelos auto-regresivos en la generación de imágenes personalizadas, ofreciendo una nueva dirección para futuras investigaciones en esta área.
English
Personalized image synthesis has emerged as a pivotal application in
text-to-image generation, enabling the creation of images featuring specific
subjects in diverse contexts. While diffusion models have dominated this
domain, auto-regressive models, with their unified architecture for text and
image modeling, remain underexplored for personalized image generation. This
paper investigates the potential of optimizing auto-regressive models for
personalized image synthesis, leveraging their inherent multimodal capabilities
to perform this task. We propose a two-stage training strategy that combines
optimization of text embeddings and fine-tuning of transformer layers. Our
experiments on the auto-regressive model demonstrate that this method achieves
comparable subject fidelity and prompt following to the leading diffusion-based
personalization methods. The results highlight the effectiveness of
auto-regressive models in personalized image generation, offering a new
direction for future research in this area.Summary
AI-Generated Summary