ChatPaper.aiChatPaper

Generación Personalizada de Texto a Imagen con Modelos Auto-Regresivos

Personalized Text-to-Image Generation with Auto-Regressive Models

April 17, 2025
Autores: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI

Resumen

La síntesis de imágenes personalizadas ha surgido como una aplicación fundamental en la generación de imágenes a partir de texto, permitiendo la creación de imágenes que incluyen sujetos específicos en diversos contextos. Si bien los modelos de difusión han dominado este ámbito, los modelos auto-regresivos, con su arquitectura unificada para el modelado de texto e imágenes, siguen siendo poco explorados para la generación de imágenes personalizadas. Este artículo investiga el potencial de optimizar modelos auto-regresivos para la síntesis de imágenes personalizadas, aprovechando sus capacidades multimodales inherentes para realizar esta tarea. Proponemos una estrategia de entrenamiento en dos etapas que combina la optimización de incrustaciones de texto y el ajuste fino de capas de transformadores. Nuestros experimentos con el modelo auto-regresivo demuestran que este método logra una fidelidad al sujeto y seguimiento de indicaciones comparables a los principales métodos de personalización basados en difusión. Los resultados destacan la efectividad de los modelos auto-regresivos en la generación de imágenes personalizadas, ofreciendo una nueva dirección para futuras investigaciones en esta área.
English
Personalized image synthesis has emerged as a pivotal application in text-to-image generation, enabling the creation of images featuring specific subjects in diverse contexts. While diffusion models have dominated this domain, auto-regressive models, with their unified architecture for text and image modeling, remain underexplored for personalized image generation. This paper investigates the potential of optimizing auto-regressive models for personalized image synthesis, leveraging their inherent multimodal capabilities to perform this task. We propose a two-stage training strategy that combines optimization of text embeddings and fine-tuning of transformer layers. Our experiments on the auto-regressive model demonstrate that this method achieves comparable subject fidelity and prompt following to the leading diffusion-based personalization methods. The results highlight the effectiveness of auto-regressive models in personalized image generation, offering a new direction for future research in this area.

Summary

AI-Generated Summary

PDF183April 23, 2025