ObjectMate: Приоритет рекуррентности для вставки объекта и генерации, управляемой субъектом
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
December 11, 2024
Авторы: Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Аннотация
Данный доклад представляет метод без настройки как для вставки объекта, так и для генерации, управляемой субъектом. Задача заключается в составлении объекта, учитывая несколько видов, в сцену, заданную либо изображением, либо текстом. Существующие методы испытывают затруднения в полном выполнении сложных целей задачи: (i) бесшовное включение объекта в сцену с фотореалистичной позой и освещением, и (ii) сохранение идентичности объекта. Мы предполагаем, что достижение этих целей требует обширного надзора, но ручное сбор достаточных данных просто слишком дорог. Ключевое наблюдение в данном докладе заключается в том, что многие серийно производимые объекты повторяются в нескольких изображениях больших неразмеченных наборов данных, в различных сценах, позах и условиях освещения. Мы используем это наблюдение для создания обширного надзора путем извлечения наборов разнообразных видов одного и того же объекта. Этот мощный парный набор данных позволяет нам обучить простую архитектуру диффузии текста в изображение для сопоставления описаний объекта и сцены с составленным изображением. Мы сравниваем наш метод, ObjectMate, с передовыми методами для вставки объекта и генерации, управляемой субъектом, с использованием одного или нескольких ссылочных объектов. Эмпирически ObjectMate достигает превосходного сохранения идентичности и более фотореалистичной композиции. В отличие от многих других методов с множественными ссылками, ObjectMate не требует медленной настройки во время тестирования.
English
This paper introduces a tuning-free method for both object insertion and
subject-driven generation. The task involves composing an object, given
multiple views, into a scene specified by either an image or text. Existing
methods struggle to fully meet the task's challenging objectives: (i)
seamlessly composing the object into the scene with photorealistic pose and
lighting, and (ii) preserving the object's identity. We hypothesize that
achieving these goals requires large scale supervision, but manually collecting
sufficient data is simply too expensive. The key observation in this paper is
that many mass-produced objects recur across multiple images of large unlabeled
datasets, in different scenes, poses, and lighting conditions. We use this
observation to create massive supervision by retrieving sets of diverse views
of the same object. This powerful paired dataset enables us to train a
straightforward text-to-image diffusion architecture to map the object and
scene descriptions to the composited image. We compare our method, ObjectMate,
with state-of-the-art methods for object insertion and subject-driven
generation, using a single or multiple references. Empirically, ObjectMate
achieves superior identity preservation and more photorealistic composition.
Differently from many other multi-reference methods, ObjectMate does not
require slow test-time tuning.