ChatPaper.aiChatPaper

CustomNet: テキストから画像への拡散モデルにおける可変視点を伴うゼロショットオブジェクトカスタマイズ

CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models

October 30, 2023
著者: Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan
cs.AI

要旨

テキストから画像を生成する際に、カスタマイズされたオブジェクトを組み込むことは魅力的な機能です。しかし、既存の最適化ベースおよびエンコーダベースの手法は、時間のかかる最適化、不十分な同一性の保持、そして広く見られるコピー&ペースト効果といった欠点に悩まされています。これらの制限を克服するため、我々はCustomNetを提案します。これは、オブジェクトカスタマイズプロセスに3D新視点合成能力を明示的に組み込んだ新しいアプローチです。この統合により、空間的な位置関係や視点の調整が容易になり、オブジェクトの同一性を効果的に保持しつつ多様な出力を実現します。さらに、テキスト記述や特定のユーザー定義画像を通じて位置制御と柔軟な背景制御を可能にする精巧な設計を導入し、既存の3D新視点合成手法の限界を克服します。また、現実世界のオブジェクトや複雑な背景をより適切に扱えるデータセット構築パイプラインを活用します。これらの設計を備えた我々の手法は、テスト時の最適化を必要とせずにゼロショットオブジェクトカスタマイズを可能にし、視点、位置、背景の同時制御を提供します。その結果、CustomNetは同一性の保持を強化し、多様で調和のとれた出力を生成します。
English
Incorporating a customized object into image generation presents an attractive feature in text-to-image generation. However, existing optimization-based and encoder-based methods are hindered by drawbacks such as time-consuming optimization, insufficient identity preservation, and a prevalent copy-pasting effect. To overcome these limitations, we introduce CustomNet, a novel object customization approach that explicitly incorporates 3D novel view synthesis capabilities into the object customization process. This integration facilitates the adjustment of spatial position relationships and viewpoints, yielding diverse outputs while effectively preserving object identity. Moreover, we introduce delicate designs to enable location control and flexible background control through textual descriptions or specific user-defined images, overcoming the limitations of existing 3D novel view synthesis methods. We further leverage a dataset construction pipeline that can better handle real-world objects and complex backgrounds. Equipped with these designs, our method facilitates zero-shot object customization without test-time optimization, offering simultaneous control over the viewpoints, location, and background. As a result, our CustomNet ensures enhanced identity preservation and generates diverse, harmonious outputs.
PDF103December 15, 2024