ChatPaper.aiChatPaper

Персонализированная генерация изображений из текста с использованием авторегрессивных моделей

Personalized Text-to-Image Generation with Auto-Regressive Models

April 17, 2025
Авторы: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI

Аннотация

Персонализированный синтез изображений стал ключевым приложением в области генерации изображений по текстовым описаниям, позволяя создавать изображения с определёнными объектами в различных контекстах. Хотя диффузионные модели доминируют в этой области, авторегрессивные модели, благодаря их унифицированной архитектуре для обработки текста и изображений, остаются недостаточно изученными для персонализированной генерации изображений. В данной статье исследуется потенциал оптимизации авторегрессивных моделей для персонализированного синтеза изображений, используя их встроенные мультимодальные возможности для выполнения этой задачи. Мы предлагаем двухэтапную стратегию обучения, которая сочетает оптимизацию текстовых эмбеддингов и тонкую настройку трансформерных слоёв. Наши эксперименты с авторегрессивной моделью демонстрируют, что этот метод достигает сопоставимой точности в воспроизведении объектов и следовании текстовым описаниям с ведущими методами персонализации на основе диффузии. Результаты подчеркивают эффективность авторегрессивных моделей в персонализированной генерации изображений, открывая новое направление для будущих исследований в этой области.
English
Personalized image synthesis has emerged as a pivotal application in text-to-image generation, enabling the creation of images featuring specific subjects in diverse contexts. While diffusion models have dominated this domain, auto-regressive models, with their unified architecture for text and image modeling, remain underexplored for personalized image generation. This paper investigates the potential of optimizing auto-regressive models for personalized image synthesis, leveraging their inherent multimodal capabilities to perform this task. We propose a two-stage training strategy that combines optimization of text embeddings and fine-tuning of transformer layers. Our experiments on the auto-regressive model demonstrate that this method achieves comparable subject fidelity and prompt following to the leading diffusion-based personalization methods. The results highlight the effectiveness of auto-regressive models in personalized image generation, offering a new direction for future research in this area.

Summary

AI-Generated Summary

PDF183April 23, 2025