Un Estilo Vale por un Código: Desbloqueando la Generación de Imágenes de Código a Estilo con Espacio de Estilo Discreto
A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space
November 13, 2025
Autores: Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang
cs.AI
Resumen
La estilización visual innovadora es un pilar fundamental de la creación artística, sin embargo, generar estilos visuales novedosos y consistentes sigue siendo un desafío significativo. Los enfoques generativos existentes generalmente dependen de extensos prompts textuales, imágenes de referencia o ajustes finos eficientes en parámetros para guiar la generación de imágenes consciente del estilo, pero a menudo luchan con la consistencia estilística, la creatividad limitada y las representaciones de estilo complejas. En este artículo, afirmamos que un estilo vale un código numérico mediante la introducción de la novedosa tarea de generación de imágenes de código a estilo, que produce imágenes con estilos visuales novedosos y consistentes condicionados únicamente por un código de estilo numérico. Hasta la fecha, este campo ha sido explorado principalmente por la industria (por ejemplo, Midjourney), sin que exista investigación de código abierto por parte de la comunidad académica. Para llenar este vacío, proponemos CoTyle, el primer método de código abierto para esta tarea. Específicamente, primero entrenamos un codebook de estilos discretos a partir de una colección de imágenes para extraer incrustaciones de estilo. Estas incrustaciones sirven como condiciones para un modelo de difusión de texto a imagen (T2I-DM) para generar imágenes estilizadas. Posteriormente, entrenamos un generador de estilos autorregresivo sobre las incrustaciones de estilo discretas para modelar su distribución, permitiendo la síntesis de incrustaciones de estilo novedosas. Durante la inferencia, un código de estilo numérico se mapea a una incrustación de estilo única por el generador de estilos, y esta incrustación guía al T2I-DM para generar imágenes en el estilo correspondiente. A diferencia de los métodos existentes, nuestro método ofrece una simplicidad y diversidad sin igual, desbloqueando un vasto espacio de estilos reproducibles a partir de una entrada mínima. Experimentos exhaustivos validan que CoTyle convierte efectivamente un código numérico en un controlador de estilo, demostrando que un estilo vale un código.
English
Innovative visual stylization is a cornerstone of artistic creation, yet generating novel and consistent visual styles remains a significant challenge. Existing generative approaches typically rely on lengthy textual prompts, reference images, or parameter-efficient fine-tuning to guide style-aware image generation, but often struggle with style consistency, limited creativity, and complex style representations. In this paper, we affirm that a style is worth one numerical code by introducing the novel task, code-to-style image generation, which produces images with novel, consistent visual styles conditioned solely on a numerical style code. To date, this field has only been primarily explored by the industry (e.g., Midjourney), with no open-source research from the academic community. To fill this gap, we propose CoTyle, the first open-source method for this task. Specifically, we first train a discrete style codebook from a collection of images to extract style embeddings. These embeddings serve as conditions for a text-to-image diffusion model (T2I-DM) to generate stylistic images. Subsequently, we train an autoregressive style generator on the discrete style embeddings to model their distribution, allowing the synthesis of novel style embeddings. During inference, a numerical style code is mapped to a unique style embedding by the style generator, and this embedding guides the T2I-DM to generate images in the corresponding style. Unlike existing methods, our method offers unparalleled simplicity and diversity, unlocking a vast space of reproducible styles from minimal input. Extensive experiments validate that CoTyle effectively turns a numerical code into a style controller, demonstrating a style is worth one code.