Break-A-Scene: 단일 이미지에서 다중 개념 추출하기
Break-A-Scene: Extracting Multiple Concepts from a Single Image
May 25, 2023
저자: Omri Avrahami, Kfir Aberman, Ohad Fried, Daniel Cohen-Or, Dani Lischinski
cs.AI
초록
텍스트-이미지 모델 개인화는 사용자가 제공한 개념을 모델에 도입하여 다양한 맥락에서 이를 합성할 수 있도록 하는 것을 목표로 합니다. 그러나 현재의 방법들은 주로 배경과 자세가 다양한 여러 이미지에서 단일 개념을 학습하는 경우에 초점을 맞추고 있으며, 다른 시나리오에 적용할 때 어려움을 겪습니다. 본 연구에서는 텍스트 기반 장면 분해 작업을 소개합니다: 여러 개념을 포함할 수 있는 단일 장면 이미지가 주어졌을 때, 각 개념에 대해 별도의 텍스트 토큰을 추출하여 생성된 장면에 대한 세밀한 제어를 가능하게 하는 것입니다. 이를 위해, 우리는 대상 개념의 존재를 나타내는 마스크를 입력 이미지에 추가하는 방법을 제안합니다. 이러한 마스크는 사용자가 제공하거나 사전 훈련된 세그멘테이션 모델에 의해 자동으로 생성될 수 있습니다. 그런 다음, 전용 텍스트 임베딩(핸들)과 모델 가중치를 최적화하는 새로운 두 단계의 맞춤화 과정을 제시하여 개념을 정확하게 포착하면서도 과적합을 방지하는 미묘한 균형을 유지합니다. 마스크된 확산 손실을 사용하여 핸들이 할당된 개념을 생성할 수 있도록 하고, 새로운 교차 주의 맵 손실을 추가하여 개념 간의 얽힘을 방지합니다. 또한, 생성된 이미지에서 여러 개념을 결합하는 능력을 향상시키기 위한 훈련 전략인 유니온 샘플링을 도입합니다. 우리는 여러 자동화된 지표를 사용하여 제안 방법을 여러 기준선과 정량적으로 비교하고, 사용자 연구를 통해 결과를 추가로 확인합니다. 마지막으로, 우리는 이 방법의 여러 응용 사례를 보여줍니다. 프로젝트 페이지는 https://omriavrahami.com/break-a-scene/에서 확인할 수 있습니다.
English
Text-to-image model personalization aims to introduce a user-provided concept
to the model, allowing its synthesis in diverse contexts. However, current
methods primarily focus on the case of learning a single concept from multiple
images with variations in backgrounds and poses, and struggle when adapted to a
different scenario. In this work, we introduce the task of textual scene
decomposition: given a single image of a scene that may contain several
concepts, we aim to extract a distinct text token for each concept, enabling
fine-grained control over the generated scenes. To this end, we propose
augmenting the input image with masks that indicate the presence of target
concepts. These masks can be provided by the user or generated automatically by
a pre-trained segmentation model. We then present a novel two-phase
customization process that optimizes a set of dedicated textual embeddings
(handles), as well as the model weights, striking a delicate balance between
accurately capturing the concepts and avoiding overfitting. We employ a masked
diffusion loss to enable handles to generate their assigned concepts,
complemented by a novel loss on cross-attention maps to prevent entanglement.
We also introduce union-sampling, a training strategy aimed to improve the
ability of combining multiple concepts in generated images. We use several
automatic metrics to quantitatively compare our method against several
baselines, and further affirm the results using a user study. Finally, we
showcase several applications of our method. Project page is available at:
https://omriavrahami.com/break-a-scene/