ObjectMate: Um Prior de Recorrência para Inserção de Objetos e Geração Orientada por Sujeito
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
December 11, 2024
Autores: Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Resumo
Este artigo apresenta um método sem ajustes para inserção de objeto e geração orientada por sujeito. A tarefa envolve compor um objeto, dado múltiplas visualizações, em uma cena especificada por uma imagem ou texto. Métodos existentes têm dificuldade em atender totalmente aos objetivos desafiadores da tarefa: (i) compor o objeto na cena de forma contínua com pose e iluminação fotorrealistas e (ii) preservar a identidade do objeto. Nossa hipótese é que alcançar esses objetivos requer supervisão em larga escala, mas coletar manualmente dados suficientes é simplesmente muito caro. A observação-chave neste artigo é que muitos objetos produzidos em massa se repetem em várias imagens de grandes conjuntos de dados não rotulados, em diferentes cenas, poses e condições de iluminação. Utilizamos essa observação para criar supervisão massiva, recuperando conjuntos de visualizações diversas do mesmo objeto. Este conjunto de dados em pares poderoso nos permite treinar uma arquitetura de difusão texto-imagem direta para mapear as descrições do objeto e da cena para a imagem compostada. Comparamos nosso método, ObjectMate, com métodos de ponta para inserção de objeto e geração orientada por sujeito, utilizando uma ou várias referências. Empiricamente, o ObjectMate alcança uma preservação de identidade superior e uma composição mais fotorrealista. Diferentemente de muitos outros métodos de múltiplas referências, o ObjectMate não requer ajustes lentos no momento do teste.
English
This paper introduces a tuning-free method for both object insertion and
subject-driven generation. The task involves composing an object, given
multiple views, into a scene specified by either an image or text. Existing
methods struggle to fully meet the task's challenging objectives: (i)
seamlessly composing the object into the scene with photorealistic pose and
lighting, and (ii) preserving the object's identity. We hypothesize that
achieving these goals requires large scale supervision, but manually collecting
sufficient data is simply too expensive. The key observation in this paper is
that many mass-produced objects recur across multiple images of large unlabeled
datasets, in different scenes, poses, and lighting conditions. We use this
observation to create massive supervision by retrieving sets of diverse views
of the same object. This powerful paired dataset enables us to train a
straightforward text-to-image diffusion architecture to map the object and
scene descriptions to the composited image. We compare our method, ObjectMate,
with state-of-the-art methods for object insertion and subject-driven
generation, using a single or multiple references. Empirically, ObjectMate
achieves superior identity preservation and more photorealistic composition.
Differently from many other multi-reference methods, ObjectMate does not
require slow test-time tuning.Summary
AI-Generated Summary