ChatPaper.aiChatPaper

Estilocódigos: Codificación de Información Estilística para la Generación de Imágenes

Stylecodes: Encoding Stylistic Information For Image Generation

November 19, 2024
Autores: Ciara Rowles
cs.AI

Resumen

Los modelos de difusión destacan en la generación de imágenes, pero controlarlos sigue siendo un desafío. Nos enfocamos en el problema de la generación de imágenes condicionada por estilo. Aunque las imágenes de ejemplo funcionan, son engorrosas: los códigos de referencia de estilo (srefs, por sus siglas en inglés) de MidJourney resuelven este problema al expresar un estilo de imagen específico en un código numérico corto. Estos han sido ampliamente adoptados en las redes sociales debido a su facilidad de compartir y al hecho de que permiten utilizar una imagen para controlar el estilo, sin necesidad de publicar las imágenes fuente en sí mismas. Sin embargo, los usuarios no pueden generar srefs a partir de sus propias imágenes, ni el procedimiento de entrenamiento subyacente es público. Proponemos StyleCodes: una arquitectura de codificador de estilo y un procedimiento de entrenamiento de código abierto y de investigación abierta para expresar el estilo de una imagen como un código base64 de 20 símbolos. Nuestros experimentos muestran que nuestra codificación resulta en una pérdida mínima en calidad en comparación con las técnicas tradicionales de imagen a estilo.
English
Diffusion models excel in image generation, but controlling them remains a challenge. We focus on the problem of style-conditioned image generation. Although example images work, they are cumbersome: srefs (style-reference codes) from MidJourney solve this issue by expressing a specific image style in a short numeric code. These have seen widespread adoption throughout social media due to both their ease of sharing and the fact they allow using an image for style control, without having to post the source images themselves. However, users are not able to generate srefs from their own images, nor is the underlying training procedure public. We propose StyleCodes: an open-source and open-research style encoder architecture and training procedure to express image style as a 20-symbol base64 code. Our experiments show that our encoding results in minimal loss in quality compared to traditional image-to-style techniques.

Summary

AI-Generated Summary

PDF122November 21, 2024