ObjectMate: Un prior de recurrencia para la inserción de objetos y la generación impulsada por el sujeto
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
December 11, 2024
Autores: Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Resumen
Este documento presenta un método sin ajustes para la inserción de objetos y la generación impulsada por el sujeto. La tarea implica componer un objeto, dado múltiples vistas, en una escena especificada ya sea por una imagen o texto. Los métodos existentes tienen dificultades para cumplir completamente con los objetivos desafiantes de la tarea: (i) componer el objeto en la escena de manera fluida con una pose y una iluminación fotorrealistas, y (ii) preservar la identidad del objeto. Hipotetizamos que lograr estos objetivos requiere supervisión a gran escala, pero recolectar manualmente suficientes datos es simplemente demasiado costoso. La observación clave en este documento es que muchos objetos producidos en masa se repiten en múltiples imágenes de grandes conjuntos de datos no etiquetados, en diferentes escenas, poses y condiciones de iluminación. Utilizamos esta observación para crear una supervisión masiva recuperando conjuntos de vistas diversas del mismo objeto. Este potente conjunto de datos emparejados nos permite entrenar una arquitectura de difusión directa de texto a imagen para mapear las descripciones del objeto y la escena a la imagen compuesta. Comparamos nuestro método, ObjectMate, con los métodos de vanguardia para la inserción de objetos y la generación impulsada por el sujeto, utilizando una o múltiples referencias. Empíricamente, ObjectMate logra una preservación de identidad superior y una composición más fotorrealista. A diferencia de muchos otros métodos de múltiples referencias, ObjectMate no requiere ajustes lentos en el tiempo de prueba.
English
This paper introduces a tuning-free method for both object insertion and
subject-driven generation. The task involves composing an object, given
multiple views, into a scene specified by either an image or text. Existing
methods struggle to fully meet the task's challenging objectives: (i)
seamlessly composing the object into the scene with photorealistic pose and
lighting, and (ii) preserving the object's identity. We hypothesize that
achieving these goals requires large scale supervision, but manually collecting
sufficient data is simply too expensive. The key observation in this paper is
that many mass-produced objects recur across multiple images of large unlabeled
datasets, in different scenes, poses, and lighting conditions. We use this
observation to create massive supervision by retrieving sets of diverse views
of the same object. This powerful paired dataset enables us to train a
straightforward text-to-image diffusion architecture to map the object and
scene descriptions to the composited image. We compare our method, ObjectMate,
with state-of-the-art methods for object insertion and subject-driven
generation, using a single or multiple references. Empirically, ObjectMate
achieves superior identity preservation and more photorealistic composition.
Differently from many other multi-reference methods, ObjectMate does not
require slow test-time tuning.Summary
AI-Generated Summary