ChatPaper.aiChatPaper

RealCustom: 실시간 오픈 도메인 텍스트-이미지 맞춤화를 위한 실제 텍스트 단어 정밀화

RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization

March 1, 2024
저자: Mengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang
cs.AI

초록

텍스트-이미지 맞춤화는 주어진 주제에 대해 텍스트 기반 이미지를 합성하는 것을 목표로 하며, 최근 콘텐츠 제작 분야에 혁신을 가져왔다. 기존 연구들은 주어진 주제를 가상 단어로 표현한 후 이를 주어진 텍스트와 조합하는 가상 단어 패러다임을 따르고 있다. 그러나 가상 단어와 주어진 텍스트 간의 본질적으로 얽힌 영향 범위는 이중 최적의 역설을 초래한다. 즉, 주어진 주제의 유사성과 주어진 텍스트의 제어 가능성이 동시에 최적화될 수 없다는 문제가 발생한다. 본 연구에서는 RealCustom을 제안하여, 주제의 영향을 관련 부분에만 정확히 제한함으로써 유사성과 제어 가능성을 처음으로 분리한다. 이는 일반적인 의미에서 특정 주제로 점차 좁혀가는 실제 텍스트 단어를 사용하고, 그 교차 주의력을 통해 관련성을 구분함으로써 달성된다. 구체적으로, RealCustom은 새로운 "훈련-추론" 분리 프레임워크를 도입한다: (1) 훈련 단계에서, RealCustom은 새로운 적응형 점수 모듈을 통해 시각적 조건과 원본 텍스트 조건 간의 일반적인 정렬을 학습하여 영향량을 적응적으로 조절한다; (2) 추론 단계에서, 새로운 적응형 마스크 지도 전략을 제안하여 주어진 주제의 영향 범위와 영향량을 반복적으로 업데이트하며, 실제 텍스트 단어의 생성을 점차 좁혀나간다. 포괄적인 실험을 통해 RealCustom이 개방 도메인에서 전례 없는 실시간 맞춤화 능력을 보여주며, 주어진 주제의 유사성과 주어진 텍스트의 제어 가능성을 동시에 달성함을 입증한다. 프로젝트 페이지는 https://corleone-huang.github.io/realcustom/에서 확인할 수 있다.
English
Text-to-image customization, which aims to synthesize text-driven images for the given subjects, has recently revolutionized content creation. Existing works follow the pseudo-word paradigm, i.e., represent the given subjects as pseudo-words and then compose them with the given text. However, the inherent entangled influence scope of pseudo-words with the given text results in a dual-optimum paradox, i.e., the similarity of the given subjects and the controllability of the given text could not be optimal simultaneously. We present RealCustom that, for the first time, disentangles similarity from controllability by precisely limiting subject influence to relevant parts only, achieved by gradually narrowing real text word from its general connotation to the specific subject and using its cross-attention to distinguish relevance. Specifically, RealCustom introduces a novel "train-inference" decoupled framework: (1) during training, RealCustom learns general alignment between visual conditions to original textual conditions by a novel adaptive scoring module to adaptively modulate influence quantity; (2) during inference, a novel adaptive mask guidance strategy is proposed to iteratively update the influence scope and influence quantity of the given subjects to gradually narrow the generation of the real text word. Comprehensive experiments demonstrate the superior real-time customization ability of RealCustom in the open domain, achieving both unprecedented similarity of the given subjects and controllability of the given text for the first time. The project page is https://corleone-huang.github.io/realcustom/.
PDF151December 15, 2024