Geração Personalizada de Texto para Imagem com Modelos Auto-Regressivos
Personalized Text-to-Image Generation with Auto-Regressive Models
April 17, 2025
Autores: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI
Resumo
A síntese de imagens personalizadas emergiu como uma aplicação fundamental na geração de imagens a partir de texto, permitindo a criação de imagens que apresentam assuntos específicos em diversos contextos. Embora os modelos de difusão tenham dominado esse domínio, os modelos auto-regressivos, com sua arquitetura unificada para modelagem de texto e imagem, permanecem pouco explorados para a geração de imagens personalizadas. Este artigo investiga o potencial de otimizar modelos auto-regressivos para síntese de imagens personalizadas, aproveitando suas capacidades multimodais inerentes para realizar essa tarefa. Propomos uma estratégia de treinamento em duas etapas que combina a otimização de embeddings de texto e o ajuste fino de camadas de transformadores. Nossos experimentos com o modelo auto-regressivo demonstram que esse método alcança fidelidade ao assunto e aderência ao prompt comparáveis aos principais métodos de personalização baseados em difusão. Os resultados destacam a eficácia dos modelos auto-regressivos na geração de imagens personalizadas, oferecendo uma nova direção para pesquisas futuras nessa área.
English
Personalized image synthesis has emerged as a pivotal application in
text-to-image generation, enabling the creation of images featuring specific
subjects in diverse contexts. While diffusion models have dominated this
domain, auto-regressive models, with their unified architecture for text and
image modeling, remain underexplored for personalized image generation. This
paper investigates the potential of optimizing auto-regressive models for
personalized image synthesis, leveraging their inherent multimodal capabilities
to perform this task. We propose a two-stage training strategy that combines
optimization of text embeddings and fine-tuning of transformer layers. Our
experiments on the auto-regressive model demonstrate that this method achieves
comparable subject fidelity and prompt following to the leading diffusion-based
personalization methods. The results highlight the effectiveness of
auto-regressive models in personalized image generation, offering a new
direction for future research in this area.Summary
AI-Generated Summary