RealCustom : Affinement des mots de texte réel pour la personnalisation en temps réel de la génération d'images en domaine ouvert

papers.abstract

La personnalisation texte-image, qui vise à synthétiser des images pilotées par du texte pour des sujets donnés, a récemment révolutionné la création de contenu. Les travaux existants suivent le paradigme des pseudo-mots, c'est-à-dire qu'ils représentent les sujets donnés comme des pseudo-mots puis les composent avec le texte donné. Cependant, la portée d'influence intrinsèquement entrelacée des pseudo-mots avec le texte donné entraîne un paradoxe de double optimum, c'est-à-dire que la similarité des sujets donnés et la contrôlabilité du texte donné ne peuvent pas être optimales simultanément. Nous présentons RealCustom qui, pour la première fois, dissocie la similarité de la contrôlabilité en limitant précisément l'influence du sujet aux parties pertinentes uniquement, obtenue en réduisant progressivement le mot texte réel de sa connotation générale au sujet spécifique et en utilisant son attention croisée pour distinguer la pertinence. Plus précisément, RealCustom introduit un nouveau cadre "entraînement-inférence" découplé : (1) pendant l'entraînement, RealCustom apprend l'alignement général entre les conditions visuelles et les conditions textuelles originales grâce à un nouveau module de score adaptatif pour moduler de manière adaptative la quantité d'influence ; (2) pendant l'inférence, une nouvelle stratégie de guidage par masque adaptatif est proposée pour mettre à jour itérativement la portée d'influence et la quantité d'influence des sujets donnés afin de réduire progressivement la génération du mot texte réel. Des expériences approfondies démontrent la capacité supérieure de personnalisation en temps réel de RealCustom dans le domaine ouvert, atteignant à la fois une similarité sans précédent des sujets donnés et une contrôlabilité du texte donné pour la première fois. La page du projet est https://corleone-huang.github.io/realcustom/.

English

Text-to-image customization, which aims to synthesize text-driven images for the given subjects, has recently revolutionized content creation. Existing works follow the pseudo-word paradigm, i.e., represent the given subjects as pseudo-words and then compose them with the given text. However, the inherent entangled influence scope of pseudo-words with the given text results in a dual-optimum paradox, i.e., the similarity of the given subjects and the controllability of the given text could not be optimal simultaneously. We present RealCustom that, for the first time, disentangles similarity from controllability by precisely limiting subject influence to relevant parts only, achieved by gradually narrowing real text word from its general connotation to the specific subject and using its cross-attention to distinguish relevance. Specifically, RealCustom introduces a novel "train-inference" decoupled framework: (1) during training, RealCustom learns general alignment between visual conditions to original textual conditions by a novel adaptive scoring module to adaptively modulate influence quantity; (2) during inference, a novel adaptive mask guidance strategy is proposed to iteratively update the influence scope and influence quantity of the given subjects to gradually narrow the generation of the real text word. Comprehensive experiments demonstrate the superior real-time customization ability of RealCustom in the open domain, achieving both unprecedented similarity of the given subjects and controllability of the given text for the first time. The project page is https://corleone-huang.github.io/realcustom/.

RealCustom : Affinement des mots de texte réel pour la personnalisation en temps réel de la génération d'images en domaine ouvert

RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization

papers.abstract

Support