ChatPaper.aiChatPaper

テキストから画像へのカスタマイズのための複数画像合成データの生成

Generating Multi-Image Synthetic Data for Text-to-Image Customization

February 3, 2025
著者: Nupur Kumari, Xi Yin, Jun-Yan Zhu, Ishan Misra, Samaneh Azadi
cs.AI

要旨

テキストから画像を生成するモデルのカスタマイズにより、ユーザーはカスタム概念を挿入し、未知の設定でその概念を生成することが可能となります。既存の手法は、高コストなテスト時最適化に依存するか、単一画像トレーニングデータセットでエンコーダをトレーニングする際に複数画像の監督を行わず、画像品質の低下を招くことがあります。私たちは、両方の制限に対処するシンプルなアプローチを提案します。まず、既存のテキストから画像へのモデルと3Dデータセットを活用して、異なる照明、背景、ポーズで同じオブジェクトの複数の画像からなる高品質の合成カスタマイズデータセット(SynCD)を作成します。次に、入力画像から細かい視覚的詳細をより適切に取り入れる共有注意メカニズムに基づく新しいエンコーダアーキテクチャを提案します。最後に、テキストと画像のガイダンスベクトルを正規化することで推論中の過曝露問題を緩和する新しい推論技術を提案します。豊富な実験を通じて、提案されたエンコーダと推論アルゴリズムを用いて合成データセットでトレーニングされた当社のモデルが、標準のカスタマイズベンチマークで既存のチューニングフリー手法を上回ることを示します。
English
Customization of text-to-image models enables users to insert custom concepts and generate the concepts in unseen settings. Existing methods either rely on costly test-time optimization or train encoders on single-image training datasets without multi-image supervision, leading to worse image quality. We propose a simple approach that addresses both limitations. We first leverage existing text-to-image models and 3D datasets to create a high-quality Synthetic Customization Dataset (SynCD) consisting of multiple images of the same object in different lighting, backgrounds, and poses. We then propose a new encoder architecture based on shared attention mechanisms that better incorporate fine-grained visual details from input images. Finally, we propose a new inference technique that mitigates overexposure issues during inference by normalizing the text and image guidance vectors. Through extensive experiments, we show that our model, trained on the synthetic dataset with the proposed encoder and inference algorithm, outperforms existing tuning-free methods on standard customization benchmarks.

Summary

AI-Generated Summary

PDF82February 5, 2025