ChatPaper.aiChatPaper

Geração Personalizada de Texto para Imagem com Modelos Auto-Regressivos

Personalized Text-to-Image Generation with Auto-Regressive Models

April 17, 2025
Autores: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI

Resumo

A síntese de imagens personalizadas emergiu como uma aplicação fundamental na geração de imagens a partir de texto, permitindo a criação de imagens que apresentam assuntos específicos em diversos contextos. Embora os modelos de difusão tenham dominado esse domínio, os modelos auto-regressivos, com sua arquitetura unificada para modelagem de texto e imagem, permanecem pouco explorados para a geração de imagens personalizadas. Este artigo investiga o potencial de otimizar modelos auto-regressivos para síntese de imagens personalizadas, aproveitando suas capacidades multimodais inerentes para realizar essa tarefa. Propomos uma estratégia de treinamento em duas etapas que combina a otimização de embeddings de texto e o ajuste fino de camadas de transformadores. Nossos experimentos com o modelo auto-regressivo demonstram que esse método alcança fidelidade ao assunto e aderência ao prompt comparáveis aos principais métodos de personalização baseados em difusão. Os resultados destacam a eficácia dos modelos auto-regressivos na geração de imagens personalizadas, oferecendo uma nova direção para pesquisas futuras nessa área.
English
Personalized image synthesis has emerged as a pivotal application in text-to-image generation, enabling the creation of images featuring specific subjects in diverse contexts. While diffusion models have dominated this domain, auto-regressive models, with their unified architecture for text and image modeling, remain underexplored for personalized image generation. This paper investigates the potential of optimizing auto-regressive models for personalized image synthesis, leveraging their inherent multimodal capabilities to perform this task. We propose a two-stage training strategy that combines optimization of text embeddings and fine-tuning of transformer layers. Our experiments on the auto-regressive model demonstrate that this method achieves comparable subject fidelity and prompt following to the leading diffusion-based personalization methods. The results highlight the effectiveness of auto-regressive models in personalized image generation, offering a new direction for future research in this area.

Summary

AI-Generated Summary

PDF183April 23, 2025