Estilocódigos: Codificación de Información Estilística para la Generación de Imágenes
Stylecodes: Encoding Stylistic Information For Image Generation
November 19, 2024
Autores: Ciara Rowles
cs.AI
Resumen
Los modelos de difusión destacan en la generación de imágenes, pero controlarlos sigue siendo un desafío. Nos enfocamos en el problema de la generación de imágenes condicionada por estilo. Aunque las imágenes de ejemplo funcionan, son engorrosas: los códigos de referencia de estilo (srefs, por sus siglas en inglés) de MidJourney resuelven este problema al expresar un estilo de imagen específico en un código numérico corto. Estos han sido ampliamente adoptados en las redes sociales debido a su facilidad de compartir y al hecho de que permiten utilizar una imagen para controlar el estilo, sin necesidad de publicar las imágenes fuente en sí mismas. Sin embargo, los usuarios no pueden generar srefs a partir de sus propias imágenes, ni el procedimiento de entrenamiento subyacente es público. Proponemos StyleCodes: una arquitectura de codificador de estilo y un procedimiento de entrenamiento de código abierto y de investigación abierta para expresar el estilo de una imagen como un código base64 de 20 símbolos. Nuestros experimentos muestran que nuestra codificación resulta en una pérdida mínima en calidad en comparación con las técnicas tradicionales de imagen a estilo.
English
Diffusion models excel in image generation, but controlling them remains a
challenge. We focus on the problem of style-conditioned image generation.
Although example images work, they are cumbersome: srefs (style-reference
codes) from MidJourney solve this issue by expressing a specific image style in
a short numeric code. These have seen widespread adoption throughout social
media due to both their ease of sharing and the fact they allow using an image
for style control, without having to post the source images themselves.
However, users are not able to generate srefs from their own images, nor is the
underlying training procedure public. We propose StyleCodes: an open-source and
open-research style encoder architecture and training procedure to express
image style as a 20-symbol base64 code. Our experiments show that our encoding
results in minimal loss in quality compared to traditional image-to-style
techniques.Summary
AI-Generated Summary