ChatPaper.aiChatPaper

StyleStudio: Transferencia de Estilo Dirigida por Texto con Control Selectivo de Elementos de Estilo

StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements

December 11, 2024
Autores: Mingkun Lei, Xue Song, Beier Zhu, Hao Wang, Chi Zhang
cs.AI

Resumen

La transferencia de estilo impulsada por texto tiene como objetivo combinar el estilo de una imagen de referencia con el contenido descrito por una indicación de texto. Los avances recientes en modelos de texto a imagen han mejorado la sutileza de las transformaciones de estilo, sin embargo, siguen existiendo desafíos significativos, especialmente con el sobreajuste a estilos de referencia, limitando el control estilístico y desalineándose con el contenido textual. En este documento, proponemos tres estrategias complementarias para abordar estos problemas. En primer lugar, presentamos un mecanismo de Normalización de Instancia Adaptativa (AdaIN) cruzada-modal para una mejor integración de las características de estilo y texto, mejorando la alineación. En segundo lugar, desarrollamos un enfoque de Guía sin Clasificador basado en Estilo (SCFG) que permite un control selectivo sobre elementos estilísticos, reduciendo influencias irrelevantes. Finalmente, incorporamos un modelo docente durante las primeras etapas de generación para estabilizar los diseños espaciales y mitigar artefactos. Nuestras extensas evaluaciones demuestran mejoras significativas en la calidad de la transferencia de estilo y la alineación con las indicaciones textuales. Además, nuestro enfoque puede integrarse en marcos de transferencia de estilo existentes sin necesidad de ajustes finos.
English
Text-driven style transfer aims to merge the style of a reference image with content described by a text prompt. Recent advancements in text-to-image models have improved the nuance of style transformations, yet significant challenges remain, particularly with overfitting to reference styles, limiting stylistic control, and misaligning with textual content. In this paper, we propose three complementary strategies to address these issues. First, we introduce a cross-modal Adaptive Instance Normalization (AdaIN) mechanism for better integration of style and text features, enhancing alignment. Second, we develop a Style-based Classifier-Free Guidance (SCFG) approach that enables selective control over stylistic elements, reducing irrelevant influences. Finally, we incorporate a teacher model during early generation stages to stabilize spatial layouts and mitigate artifacts. Our extensive evaluations demonstrate significant improvements in style transfer quality and alignment with textual prompts. Furthermore, our approach can be integrated into existing style transfer frameworks without fine-tuning.

Summary

AI-Generated Summary

PDF82December 12, 2024