Um Estilo Vale por Um Código: Desbloqueando a Geração de Imagens de Código para Estilo com Espaço de Estilo Discreto
A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space
November 13, 2025
Autores: Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang
cs.AI
Resumo
A estilização visual inovadora é um pilar fundamental da criação artística, mas a geração de estilos visuais novos e consistentes continua a ser um desafio significativo. As abordagens generativas existentes geralmente dependem de instruções textuais longas, imagens de referência ou ajuste fino com eficiência de parâmetros para orientar a geração de imagens com consciência de estilo, mas frequentemente lutam com consistência estilística, criatividade limitada e representações de estilo complexas. Neste artigo, afirmamos que um estilo vale por um código numérico, introduzindo a nova tarefa de geração de imagem código-para-estilo, que produz imagens com estilos visuais novos e consistentes condicionados apenas por um código de estilo numérico. Até à data, este campo foi explorado principalmente pela indústria (por exemplo, Midjourney), sem investigação de código aberto da comunidade académica. Para preencher esta lacuna, propomos o CoTyle, o primeiro método de código aberto para esta tarefa. Especificamente, começamos por treinar um codebook de estilos discretos a partir de uma coleção de imagens para extrair incorporações de estilo. Estas incorporações servem como condições para um modelo de difusão texto-para-imagem (T2I-DM) gerar imagens estilizadas. Subsequentemente, treinamos um gerador de estilos autorregressivo nas incorporações de estilo discretas para modelar a sua distribuição, permitindo a síntese de novas incorporações de estilo. Durante a inferência, um código de estilo numérico é mapeado para uma incorporação de estilo única pelo gerador de estilos, e esta incorporação orienta o T2I-DM para gerar imagens no estilo correspondente. Ao contrário dos métodos existentes, a nossa abordagem oferece uma simplicidade e diversidade incomparáveis, desbloqueando um vasto espaço de estilos reproduzíveis a partir de uma entrada mínima. Experiências extensivas validam que o CoTyle transforma efetivamente um código numérico num controlador de estilo, demonstrando que um estilo vale por um código.
English
Innovative visual stylization is a cornerstone of artistic creation, yet generating novel and consistent visual styles remains a significant challenge. Existing generative approaches typically rely on lengthy textual prompts, reference images, or parameter-efficient fine-tuning to guide style-aware image generation, but often struggle with style consistency, limited creativity, and complex style representations. In this paper, we affirm that a style is worth one numerical code by introducing the novel task, code-to-style image generation, which produces images with novel, consistent visual styles conditioned solely on a numerical style code. To date, this field has only been primarily explored by the industry (e.g., Midjourney), with no open-source research from the academic community. To fill this gap, we propose CoTyle, the first open-source method for this task. Specifically, we first train a discrete style codebook from a collection of images to extract style embeddings. These embeddings serve as conditions for a text-to-image diffusion model (T2I-DM) to generate stylistic images. Subsequently, we train an autoregressive style generator on the discrete style embeddings to model their distribution, allowing the synthesis of novel style embeddings. During inference, a numerical style code is mapped to a unique style embedding by the style generator, and this embedding guides the T2I-DM to generate images in the corresponding style. Unlike existing methods, our method offers unparalleled simplicity and diversity, unlocking a vast space of reproducible styles from minimal input. Extensive experiments validate that CoTyle effectively turns a numerical code into a style controller, demonstrating a style is worth one code.