이미지 하나가 여러 단어를 대신한다: 다중 개념 프롬프트 학습을 통한 객체 수준 개념 학습
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning
October 18, 2023
저자: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
cs.AI
초록
텍스츄럴 인버전(Textural Inversion)은 프롬프트 학습 방법으로, 이미지 스타일과 외관을 표현하기 위한 새로운 "단어"에 대한 단일 임베딩을 학습하여 이를 자연어 문장에 통합함으로써 새로운 합성 이미지를 생성할 수 있게 합니다. 그러나 개별 개념에 대한 임베딩을 얻을 수 있더라도 하나의 장면 내에서 여러 객체 수준의 개념을 식별하고 통합하는 것은 상당한 어려움을 야기합니다. 이는 우리의 실험적 테스트를 통해 추가로 확인되었습니다. 이러한 문제를 해결하기 위해, 우리는 단일 문장-이미지 쌍에서 동시에 여러 새로운 "단어"를 학습하는 다중 개념 프롬프트 학습(Multi-Concept Prompt Learning, MCPL) 프레임워크를 소개합니다. 단어-개념 상관관계의 정확성을 높이기 위해, 우리는 세 가지 정규화 기법을 제안합니다: 관련 영역에 학습을 집중시키기 위한 어텐션 마스킹(Attention Masking, AttnMask), 다른 개념들의 임베딩을 분리하기 위한 프롬프트 대조 손실(Prompts Contrastive Loss, PromptCL), 그리고 새로운 "단어"를 알려진 단어와 연결하기 위한 형용사 바인딩(Bind adjective, Bind adj.)입니다. 우리는 다양한 이미지를 사용한 이미지 생성, 편집, 그리고 어텐션 시각화를 통해 평가를 진행합니다. 광범위한 정량적 비교를 통해 우리의 방법이 더 의미론적으로 분리된 개념을 학습하며 단어-개념 상관관계를 강화할 수 있음을 입증합니다. 또한, 우리는 객체 수준의 개념 학습이라는 새로운 작업에 맞춰 설계된 새로운 데이터셋과 평가 프로토콜을 소개합니다.
English
Textural Inversion, a prompt learning method, learns a singular embedding for
a new "word" to represent image style and appearance, allowing it to be
integrated into natural language sentences to generate novel synthesised
images. However, identifying and integrating multiple object-level concepts
within one scene poses significant challenges even when embeddings for
individual concepts are attainable. This is further confirmed by our empirical
tests. To address this challenge, we introduce a framework for Multi-Concept
Prompt Learning (MCPL), where multiple new "words" are simultaneously learned
from a single sentence-image pair. To enhance the accuracy of word-concept
correlation, we propose three regularisation techniques: Attention Masking
(AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss
(PromptCL) to separate the embeddings of different concepts; and Bind adjective
(Bind adj.) to associate new "words" with known words. We evaluate via image
generation, editing, and attention visualisation with diverse images. Extensive
quantitative comparisons demonstrate that our method can learn more
semantically disentangled concepts with enhanced word-concept correlation.
Additionally, we introduce a novel dataset and evaluation protocol tailored for
this new task of learning object-level concepts.