Break-A-Scene : Extraction de multiples concepts à partir d'une seule image
Break-A-Scene: Extracting Multiple Concepts from a Single Image
May 25, 2023
Auteurs: Omri Avrahami, Kfir Aberman, Ohad Fried, Daniel Cohen-Or, Dani Lischinski
cs.AI
Résumé
La personnalisation des modèles texte-image vise à intégrer un concept fourni par l'utilisateur au modèle, permettant sa synthèse dans divers contextes. Cependant, les méthodes actuelles se concentrent principalement sur l'apprentissage d'un seul concept à partir de plusieurs images présentant des variations d'arrière-plans et de poses, et rencontrent des difficultés lorsqu'elles sont adaptées à un scénario différent. Dans ce travail, nous introduisons la tâche de décomposition textuelle de scènes : étant donné une seule image d'une scène pouvant contenir plusieurs concepts, nous cherchons à extraire un jeton textuel distinct pour chaque concept, permettant un contrôle granulaire sur les scènes générées. Pour ce faire, nous proposons d'enrichir l'image d'entrée avec des masques indiquant la présence des concepts cibles. Ces masques peuvent être fournis par l'utilisateur ou générés automatiquement par un modèle de segmentation pré-entraîné. Nous présentons ensuite un processus de personnalisation en deux phases qui optimise un ensemble d'embeddings textuels dédiés (handles), ainsi que les poids du modèle, en trouvant un équilibre délicat entre la capture précise des concepts et l'évitement du surajustement. Nous utilisons une perte de diffusion masquée pour permettre aux handles de générer leurs concepts assignés, complétée par une nouvelle perte sur les cartes d'attention croisée pour éviter l'enchevêtrement. Nous introduisons également l'union-échantillonnage, une stratégie d'entraînement visant à améliorer la capacité de combiner plusieurs concepts dans les images générées. Nous utilisons plusieurs métriques automatiques pour comparer quantitativement notre méthode à plusieurs approches de référence, et confirmons les résultats par une étude utilisateur. Enfin, nous présentons plusieurs applications de notre méthode. La page du projet est disponible à l'adresse : https://omriavrahami.com/break-a-scene/
English
Text-to-image model personalization aims to introduce a user-provided concept
to the model, allowing its synthesis in diverse contexts. However, current
methods primarily focus on the case of learning a single concept from multiple
images with variations in backgrounds and poses, and struggle when adapted to a
different scenario. In this work, we introduce the task of textual scene
decomposition: given a single image of a scene that may contain several
concepts, we aim to extract a distinct text token for each concept, enabling
fine-grained control over the generated scenes. To this end, we propose
augmenting the input image with masks that indicate the presence of target
concepts. These masks can be provided by the user or generated automatically by
a pre-trained segmentation model. We then present a novel two-phase
customization process that optimizes a set of dedicated textual embeddings
(handles), as well as the model weights, striking a delicate balance between
accurately capturing the concepts and avoiding overfitting. We employ a masked
diffusion loss to enable handles to generate their assigned concepts,
complemented by a novel loss on cross-attention maps to prevent entanglement.
We also introduce union-sampling, a training strategy aimed to improve the
ability of combining multiple concepts in generated images. We use several
automatic metrics to quantitatively compare our method against several
baselines, and further affirm the results using a user study. Finally, we
showcase several applications of our method. Project page is available at:
https://omriavrahami.com/break-a-scene/