ChatPaper.aiChatPaper

Break-A-Scene : Extraction de multiples concepts à partir d'une seule image

Break-A-Scene: Extracting Multiple Concepts from a Single Image

May 25, 2023
Auteurs: Omri Avrahami, Kfir Aberman, Ohad Fried, Daniel Cohen-Or, Dani Lischinski
cs.AI

Résumé

La personnalisation des modèles texte-image vise à intégrer un concept fourni par l'utilisateur au modèle, permettant sa synthèse dans divers contextes. Cependant, les méthodes actuelles se concentrent principalement sur l'apprentissage d'un seul concept à partir de plusieurs images présentant des variations d'arrière-plans et de poses, et rencontrent des difficultés lorsqu'elles sont adaptées à un scénario différent. Dans ce travail, nous introduisons la tâche de décomposition textuelle de scènes : étant donné une seule image d'une scène pouvant contenir plusieurs concepts, nous cherchons à extraire un jeton textuel distinct pour chaque concept, permettant un contrôle granulaire sur les scènes générées. Pour ce faire, nous proposons d'enrichir l'image d'entrée avec des masques indiquant la présence des concepts cibles. Ces masques peuvent être fournis par l'utilisateur ou générés automatiquement par un modèle de segmentation pré-entraîné. Nous présentons ensuite un processus de personnalisation en deux phases qui optimise un ensemble d'embeddings textuels dédiés (handles), ainsi que les poids du modèle, en trouvant un équilibre délicat entre la capture précise des concepts et l'évitement du surajustement. Nous utilisons une perte de diffusion masquée pour permettre aux handles de générer leurs concepts assignés, complétée par une nouvelle perte sur les cartes d'attention croisée pour éviter l'enchevêtrement. Nous introduisons également l'union-échantillonnage, une stratégie d'entraînement visant à améliorer la capacité de combiner plusieurs concepts dans les images générées. Nous utilisons plusieurs métriques automatiques pour comparer quantitativement notre méthode à plusieurs approches de référence, et confirmons les résultats par une étude utilisateur. Enfin, nous présentons plusieurs applications de notre méthode. La page du projet est disponible à l'adresse : https://omriavrahami.com/break-a-scene/
English
Text-to-image model personalization aims to introduce a user-provided concept to the model, allowing its synthesis in diverse contexts. However, current methods primarily focus on the case of learning a single concept from multiple images with variations in backgrounds and poses, and struggle when adapted to a different scenario. In this work, we introduce the task of textual scene decomposition: given a single image of a scene that may contain several concepts, we aim to extract a distinct text token for each concept, enabling fine-grained control over the generated scenes. To this end, we propose augmenting the input image with masks that indicate the presence of target concepts. These masks can be provided by the user or generated automatically by a pre-trained segmentation model. We then present a novel two-phase customization process that optimizes a set of dedicated textual embeddings (handles), as well as the model weights, striking a delicate balance between accurately capturing the concepts and avoiding overfitting. We employ a masked diffusion loss to enable handles to generate their assigned concepts, complemented by a novel loss on cross-attention maps to prevent entanglement. We also introduce union-sampling, a training strategy aimed to improve the ability of combining multiple concepts in generated images. We use several automatic metrics to quantitatively compare our method against several baselines, and further affirm the results using a user study. Finally, we showcase several applications of our method. Project page is available at: https://omriavrahami.com/break-a-scene/
PDF70December 15, 2024