ChatPaper.aiChatPaper

Estilo de códigos: Codificação de Informações Estilísticas para Geração de Imagens

Stylecodes: Encoding Stylistic Information For Image Generation

November 19, 2024
Autores: Ciara Rowles
cs.AI

Resumo

Os modelos de difusão se destacam na geração de imagens, mas controlá-los ainda é um desafio. Nos concentramos no problema da geração de imagens condicionadas a estilo. Embora imagens de exemplo funcionem, elas são complicadas: os srefs (códigos de referência de estilo) do MidJourney resolvem esse problema ao expressar um estilo de imagem específico em um código numérico curto. Eles têm sido amplamente adotados nas redes sociais devido à facilidade de compartilhamento e ao fato de permitirem o controle de estilo de uma imagem sem a necessidade de postar as imagens de origem. No entanto, os usuários não conseguem gerar srefs a partir de suas próprias imagens, nem o procedimento de treinamento subjacente é público. Propomos os StyleCodes: uma arquitetura de codificador de estilo de código aberto e de pesquisa aberta, juntamente com um procedimento de treinamento para expressar o estilo de imagem como um código base64 de 20 símbolos. Nossos experimentos mostram que nossa codificação resulta em perda mínima de qualidade em comparação com técnicas tradicionais de imagem-para-estilo.
English
Diffusion models excel in image generation, but controlling them remains a challenge. We focus on the problem of style-conditioned image generation. Although example images work, they are cumbersome: srefs (style-reference codes) from MidJourney solve this issue by expressing a specific image style in a short numeric code. These have seen widespread adoption throughout social media due to both their ease of sharing and the fact they allow using an image for style control, without having to post the source images themselves. However, users are not able to generate srefs from their own images, nor is the underlying training procedure public. We propose StyleCodes: an open-source and open-research style encoder architecture and training procedure to express image style as a 20-symbol base64 code. Our experiments show that our encoding results in minimal loss in quality compared to traditional image-to-style techniques.
PDF122November 21, 2024