ObjectMate:オブジェクト挿入と主体駆動生成のための再現事前確率
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
December 11, 2024
著者: Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
要旨
本論文では、オブジェクトの挿入と主体駆動生成の両方にチューニング不要な手法を紹介します。このタスクは、複数の視点が与えられた状態で、オブジェクトを画像またはテキストで指定されたシーンに構成することを含みます。既存の手法は、(i)オブジェクトを写実的なポーズとライティングでシーンにシームレスに構成すること、および(ii)オブジェクトのアイデンティティを保持することという、このタスクの厳しい目標を完全に満たすのに苦労しています。これらの目標を達成するには大規模な監督が必要と考えられますが、十分なデータを手動で収集するのは単純に高すぎます。本論文の鍵となる観察は、多くの大量生産されたオブジェクトが大規模な未ラベルデータセットの異なるシーン、ポーズ、ライティング条件の複数の画像で繰り返し現れるということです。この観察を活用して、同じオブジェクトの異なるビューのセットを取得することで、大規模な監督を作成します。この強力なペアデータセットにより、オブジェクトとシーンの説明を合成画像にマッピングするための直感的なテキストから画像への拡散アーキテクチャを訓練することが可能となります。ObjectMateと呼ばれる当社の手法を、オブジェクトの挿入と主体駆動生成の最先端手法と単一または複数の参照を使用して比較します。経験的に、ObjectMateは優れたアイデンティティの保存とより写実的な構成を実現しています。多くの他の多重参照手法とは異なり、ObjectMateは遅いテスト時間のチューニングを必要としません。
English
This paper introduces a tuning-free method for both object insertion and
subject-driven generation. The task involves composing an object, given
multiple views, into a scene specified by either an image or text. Existing
methods struggle to fully meet the task's challenging objectives: (i)
seamlessly composing the object into the scene with photorealistic pose and
lighting, and (ii) preserving the object's identity. We hypothesize that
achieving these goals requires large scale supervision, but manually collecting
sufficient data is simply too expensive. The key observation in this paper is
that many mass-produced objects recur across multiple images of large unlabeled
datasets, in different scenes, poses, and lighting conditions. We use this
observation to create massive supervision by retrieving sets of diverse views
of the same object. This powerful paired dataset enables us to train a
straightforward text-to-image diffusion architecture to map the object and
scene descriptions to the composited image. We compare our method, ObjectMate,
with state-of-the-art methods for object insertion and subject-driven
generation, using a single or multiple references. Empirically, ObjectMate
achieves superior identity preservation and more photorealistic composition.
Differently from many other multi-reference methods, ObjectMate does not
require slow test-time tuning.Summary
AI-Generated Summary