InstantStyle: Almoço Grátis para a Preservação de Estilo na Geração de Imagens a partir de Texto

Resumo

Modelos baseados em difusão que dispensam ajustes finos têm demonstrado um potencial significativo no âmbito da personalização e customização de imagens. No entanto, apesar desse progresso notável, os modelos atuais continuam a enfrentar diversos desafios complexos na geração de imagens com consistência de estilo. Em primeiro lugar, o conceito de estilo é intrinsecamente subdeterminado, abrangendo uma multiplicidade de elementos, como cor, material, atmosfera, design e estrutura, entre outros. Em segundo lugar, métodos baseados em inversão são propensos à degradação de estilo, frequentemente resultando na perda de detalhes refinados. Por fim, abordagens baseadas em adaptadores geralmente exigem um ajuste meticuloso de pesos para cada imagem de referência, a fim de alcançar um equilíbrio entre a intensidade do estilo e a controlabilidade textual. Neste artigo, começamos examinando várias observações convincentes, porém frequentemente negligenciadas. Em seguida, apresentamos o InstantStyle, um framework projetado para abordar essas questões por meio da implementação de duas estratégias principais: 1) Um mecanismo simples que desacopla estilo e conteúdo de imagens de referência no espaço de características, baseado na premissa de que características dentro do mesmo espaço podem ser somadas ou subtraídas umas das outras. 2) A injeção de características da imagem de referência exclusivamente em blocos específicos de estilo, prevenindo assim vazamentos de estilo e eliminando a necessidade de ajustes de peso complicados, que frequentemente caracterizam designs mais pesados em parâmetros. Nosso trabalho demonstra resultados superiores de estilização visual, alcançando um equilíbrio ideal entre a intensidade do estilo e a controlabilidade dos elementos textuais. Nossos códigos estarão disponíveis em https://github.com/InstantStyle/InstantStyle.

English

Tuning-free diffusion-based models have demonstrated significant potential in the realm of image personalization and customization. However, despite this notable progress, current models continue to grapple with several complex challenges in producing style-consistent image generation. Firstly, the concept of style is inherently underdetermined, encompassing a multitude of elements such as color, material, atmosphere, design, and structure, among others. Secondly, inversion-based methods are prone to style degradation, often resulting in the loss of fine-grained details. Lastly, adapter-based approaches frequently require meticulous weight tuning for each reference image to achieve a balance between style intensity and text controllability. In this paper, we commence by examining several compelling yet frequently overlooked observations. We then proceed to introduce InstantStyle, a framework designed to address these issues through the implementation of two key strategies: 1) A straightforward mechanism that decouples style and content from reference images within the feature space, predicated on the assumption that features within the same space can be either added to or subtracted from one another. 2) The injection of reference image features exclusively into style-specific blocks, thereby preventing style leaks and eschewing the need for cumbersome weight tuning, which often characterizes more parameter-heavy designs.Our work demonstrates superior visual stylization outcomes, striking an optimal balance between the intensity of style and the controllability of textual elements. Our codes will be available at https://github.com/InstantStyle/InstantStyle.

InstantStyle: Almoço Grátis para a Preservação de Estilo na Geração de Imagens a partir de Texto

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation

Resumo

Support