自己回帰モデルによるパーソナライズドテキスト-to-画像生成
Personalized Text-to-Image Generation with Auto-Regressive Models
April 17, 2025
著者: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
cs.AI
要旨
パーソナライズド画像合成は、テキストから画像を生成する分野において重要なアプリケーションとして登場し、特定の被写体を多様なコンテキストで描いた画像の作成を可能にしています。拡散モデルがこの領域を支配する中で、テキストと画像のモデリングを統一的に扱うオートリグレッシブモデルは、パーソナライズド画像生成において未だ十分に探求されていません。本論文では、オートリグレッシブモデルをパーソナライズド画像合成に最適化する可能性を調査し、その内在するマルチモーダル能力を活用してこのタスクを実行する方法を探ります。我々は、テキスト埋め込みの最適化とトランスフォーマーレイヤーの微調整を組み合わせた2段階のトレーニング戦略を提案します。オートリグレッシブモデルを用いた実験により、この方法が主要な拡散ベースのパーソナライゼーション手法と同等の被写体忠実性とプロンプト追従性を達成することを実証します。この結果は、オートリグレッシブモデルがパーソナライズド画像生成において有効であることを示し、この分野の将来の研究に向けた新たな方向性を提供します。
English
Personalized image synthesis has emerged as a pivotal application in
text-to-image generation, enabling the creation of images featuring specific
subjects in diverse contexts. While diffusion models have dominated this
domain, auto-regressive models, with their unified architecture for text and
image modeling, remain underexplored for personalized image generation. This
paper investigates the potential of optimizing auto-regressive models for
personalized image synthesis, leveraging their inherent multimodal capabilities
to perform this task. We propose a two-stage training strategy that combines
optimization of text embeddings and fine-tuning of transformer layers. Our
experiments on the auto-regressive model demonstrate that this method achieves
comparable subject fidelity and prompt following to the leading diffusion-based
personalization methods. The results highlight the effectiveness of
auto-regressive models in personalized image generation, offering a new
direction for future research in this area.Summary
AI-Generated Summary