InstantStyle: Almoço Grátis para a Preservação de Estilo na Geração de Imagens a partir de Texto
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation
April 3, 2024
Autores: Haofan Wang, Qixun Wang, Xu Bai, Zekui Qin, Anthony Chen
cs.AI
Resumo
Modelos baseados em difusão que dispensam ajustes finos têm demonstrado um potencial significativo no âmbito da personalização e customização de imagens. No entanto, apesar desse progresso notável, os modelos atuais continuam a enfrentar diversos desafios complexos na geração de imagens com consistência de estilo. Em primeiro lugar, o conceito de estilo é intrinsecamente subdeterminado, abrangendo uma multiplicidade de elementos, como cor, material, atmosfera, design e estrutura, entre outros. Em segundo lugar, métodos baseados em inversão são propensos à degradação de estilo, frequentemente resultando na perda de detalhes refinados. Por fim, abordagens baseadas em adaptadores geralmente exigem um ajuste meticuloso de pesos para cada imagem de referência, a fim de alcançar um equilíbrio entre a intensidade do estilo e a controlabilidade textual. Neste artigo, começamos examinando várias observações convincentes, porém frequentemente negligenciadas. Em seguida, apresentamos o InstantStyle, um framework projetado para abordar essas questões por meio da implementação de duas estratégias principais: 1) Um mecanismo simples que desacopla estilo e conteúdo de imagens de referência no espaço de características, baseado na premissa de que características dentro do mesmo espaço podem ser somadas ou subtraídas umas das outras. 2) A injeção de características da imagem de referência exclusivamente em blocos específicos de estilo, prevenindo assim vazamentos de estilo e eliminando a necessidade de ajustes de peso complicados, que frequentemente caracterizam designs mais pesados em parâmetros. Nosso trabalho demonstra resultados superiores de estilização visual, alcançando um equilíbrio ideal entre a intensidade do estilo e a controlabilidade dos elementos textuais. Nossos códigos estarão disponíveis em https://github.com/InstantStyle/InstantStyle.
English
Tuning-free diffusion-based models have demonstrated significant potential in
the realm of image personalization and customization. However, despite this
notable progress, current models continue to grapple with several complex
challenges in producing style-consistent image generation. Firstly, the concept
of style is inherently underdetermined, encompassing a multitude of elements
such as color, material, atmosphere, design, and structure, among others.
Secondly, inversion-based methods are prone to style degradation, often
resulting in the loss of fine-grained details. Lastly, adapter-based approaches
frequently require meticulous weight tuning for each reference image to achieve
a balance between style intensity and text controllability. In this paper, we
commence by examining several compelling yet frequently overlooked
observations. We then proceed to introduce InstantStyle, a framework designed
to address these issues through the implementation of two key strategies: 1) A
straightforward mechanism that decouples style and content from reference
images within the feature space, predicated on the assumption that features
within the same space can be either added to or subtracted from one another. 2)
The injection of reference image features exclusively into style-specific
blocks, thereby preventing style leaks and eschewing the need for cumbersome
weight tuning, which often characterizes more parameter-heavy designs.Our work
demonstrates superior visual stylization outcomes, striking an optimal balance
between the intensity of style and the controllability of textual elements. Our
codes will be available at https://github.com/InstantStyle/InstantStyle.