RealCustom : Affinement des mots de texte réel pour la personnalisation en temps réel de la génération d'images en domaine ouvert
RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization
March 1, 2024
Auteurs: Mengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang
cs.AI
Résumé
La personnalisation texte-image, qui vise à synthétiser des images pilotées par du texte pour des sujets donnés, a récemment révolutionné la création de contenu. Les travaux existants suivent le paradigme des pseudo-mots, c'est-à-dire qu'ils représentent les sujets donnés comme des pseudo-mots puis les composent avec le texte donné. Cependant, la portée d'influence intrinsèquement entrelacée des pseudo-mots avec le texte donné entraîne un paradoxe de double optimum, c'est-à-dire que la similarité des sujets donnés et la contrôlabilité du texte donné ne peuvent pas être optimales simultanément. Nous présentons RealCustom qui, pour la première fois, dissocie la similarité de la contrôlabilité en limitant précisément l'influence du sujet aux parties pertinentes uniquement, obtenue en réduisant progressivement le mot texte réel de sa connotation générale au sujet spécifique et en utilisant son attention croisée pour distinguer la pertinence. Plus précisément, RealCustom introduit un nouveau cadre "entraînement-inférence" découplé : (1) pendant l'entraînement, RealCustom apprend l'alignement général entre les conditions visuelles et les conditions textuelles originales grâce à un nouveau module de score adaptatif pour moduler de manière adaptative la quantité d'influence ; (2) pendant l'inférence, une nouvelle stratégie de guidage par masque adaptatif est proposée pour mettre à jour itérativement la portée d'influence et la quantité d'influence des sujets donnés afin de réduire progressivement la génération du mot texte réel. Des expériences approfondies démontrent la capacité supérieure de personnalisation en temps réel de RealCustom dans le domaine ouvert, atteignant à la fois une similarité sans précédent des sujets donnés et une contrôlabilité du texte donné pour la première fois. La page du projet est https://corleone-huang.github.io/realcustom/.
English
Text-to-image customization, which aims to synthesize text-driven images for
the given subjects, has recently revolutionized content creation. Existing
works follow the pseudo-word paradigm, i.e., represent the given subjects as
pseudo-words and then compose them with the given text. However, the inherent
entangled influence scope of pseudo-words with the given text results in a
dual-optimum paradox, i.e., the similarity of the given subjects and the
controllability of the given text could not be optimal simultaneously. We
present RealCustom that, for the first time, disentangles similarity from
controllability by precisely limiting subject influence to relevant parts only,
achieved by gradually narrowing real text word from its general connotation to
the specific subject and using its cross-attention to distinguish relevance.
Specifically, RealCustom introduces a novel "train-inference" decoupled
framework: (1) during training, RealCustom learns general alignment between
visual conditions to original textual conditions by a novel adaptive scoring
module to adaptively modulate influence quantity; (2) during inference, a novel
adaptive mask guidance strategy is proposed to iteratively update the influence
scope and influence quantity of the given subjects to gradually narrow the
generation of the real text word. Comprehensive experiments demonstrate the
superior real-time customization ability of RealCustom in the open domain,
achieving both unprecedented similarity of the given subjects and
controllability of the given text for the first time. The project page is
https://corleone-huang.github.io/realcustom/.