ChatPaper.aiChatPaper

RealCustom: Reducción de palabras en texto real para la personalización en tiempo real de texto a imagen en dominios abiertos

RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization

March 1, 2024
Autores: Mengqi Huang, Zhendong Mao, Mingcong Liu, Qian He, Yongdong Zhang
cs.AI

Resumen

La personalización de texto a imagen, que busca sintetizar imágenes guiadas por texto para sujetos dados, ha revolucionado recientemente la creación de contenido. Los trabajos existentes siguen el paradigma de las pseudopalabras, es decir, representan los sujetos dados como pseudopalabras y luego las combinan con el texto proporcionado. Sin embargo, el alcance de influencia inherentemente entrelazado de las pseudopalabras con el texto dado resulta en una paradoja de doble óptimo, es decir, la similitud de los sujetos dados y la controlabilidad del texto proporcionado no pueden ser óptimas simultáneamente. Presentamos RealCustom que, por primera vez, desenreda la similitud de la controlabilidad al limitar precisamente la influencia del sujeto solo a las partes relevantes, logrado al reducir gradualmente la palabra de texto real desde su connotación general al sujeto específico y utilizando su atención cruzada para distinguir la relevancia. Específicamente, RealCustom introduce un novedoso marco desacoplado "entrenamiento-inferencia": (1) durante el entrenamiento, RealCustom aprende la alineación general entre las condiciones visuales y las condiciones textuales originales mediante un módulo de puntuación adaptativa para modular adaptativamente la cantidad de influencia; (2) durante la inferencia, se propone una novedosa estrategia de guía de máscara adaptativa para actualizar iterativamente el alcance de influencia y la cantidad de influencia de los sujetos dados para reducir gradualmente la generación de la palabra de texto real. Experimentos exhaustivos demuestran la capacidad superior de personalización en tiempo real de RealCustom en el dominio abierto, logrando por primera vez una similitud sin precedentes de los sujetos dados y una controlabilidad del texto proporcionado. La página del proyecto es https://corleone-huang.github.io/realcustom/.
English
Text-to-image customization, which aims to synthesize text-driven images for the given subjects, has recently revolutionized content creation. Existing works follow the pseudo-word paradigm, i.e., represent the given subjects as pseudo-words and then compose them with the given text. However, the inherent entangled influence scope of pseudo-words with the given text results in a dual-optimum paradox, i.e., the similarity of the given subjects and the controllability of the given text could not be optimal simultaneously. We present RealCustom that, for the first time, disentangles similarity from controllability by precisely limiting subject influence to relevant parts only, achieved by gradually narrowing real text word from its general connotation to the specific subject and using its cross-attention to distinguish relevance. Specifically, RealCustom introduces a novel "train-inference" decoupled framework: (1) during training, RealCustom learns general alignment between visual conditions to original textual conditions by a novel adaptive scoring module to adaptively modulate influence quantity; (2) during inference, a novel adaptive mask guidance strategy is proposed to iteratively update the influence scope and influence quantity of the given subjects to gradually narrow the generation of the real text word. Comprehensive experiments demonstrate the superior real-time customization ability of RealCustom in the open domain, achieving both unprecedented similarity of the given subjects and controllability of the given text for the first time. The project page is https://corleone-huang.github.io/realcustom/.
PDF151December 15, 2024