Uno Stile Vale un Codice: Sbloccare la Generazione di Immagini da Codice a Stile con Spazi di Stile Discreti
A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space
November 13, 2025
Autori: Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang
cs.AI
Abstract
La stilizzazione visiva innovativa è un pilastro della creazione artistica, ma generare stili visivi nuovi e coerenti rimane una sfida significativa. Gli approcci generativi esistenti si basano tipicamente su prompt testuali lunghi, immagini di riferimento o fine-tuning efficiente dei parametri per guidare la generazione di immagini sensibile allo stile, ma spesso incontrano difficoltà con la coerenza stilistica, la creatività limitata e le rappresentazioni complesse dello stile. In questo articolo, affermiamo che uno stile vale un codice numerico introducendo il nuovo compito della generazione di immagini da codice a stile, che produce immagini con stili visivi nuovi e coerenti condizionati esclusivamente da un codice stilistico numerico. Ad oggi, questo campo è stato esplorato principalmente dall'industria (ad esempio, Midjourney), senza ricerche open-source dalla comunità accademica. Per colmare questa lacuna, proponiamo CoTyle, il primo metodo open-source per questo compito. Nello specifico, addestriamo prima un codebook stilistico discreto da una raccolta di immagini per estrarre embedding stilistici. Questi embedding servono come condizioni per un modello di diffusione da testo a immagine (T2I-DM) per generare immagini stilistiche. Successivamente, addestriamo un generatore stilistico autoregressivo sugli embedding stilistici discreti per modellarne la distribuzione, consentendo la sintesi di nuovi embedding stilistici. Durante l'inferenza, un codice stilistico numerico viene mappato a un embedding stilistico unico dal generatore di stile, e questo embedding guida il T2I-DM a generare immagini nello stile corrispondente. A differenza dei metodi esistenti, il nostro metodo offre una semplicità e diversità senza pari, sbloccando un vasto spazio di stili riproducibili da input minimi. Esperimenti estensivi convalidano che CoTyle trasforma efficacemente un codice numerico in un controllore di stile, dimostrando che uno stile vale un codice.
English
Innovative visual stylization is a cornerstone of artistic creation, yet generating novel and consistent visual styles remains a significant challenge. Existing generative approaches typically rely on lengthy textual prompts, reference images, or parameter-efficient fine-tuning to guide style-aware image generation, but often struggle with style consistency, limited creativity, and complex style representations. In this paper, we affirm that a style is worth one numerical code by introducing the novel task, code-to-style image generation, which produces images with novel, consistent visual styles conditioned solely on a numerical style code. To date, this field has only been primarily explored by the industry (e.g., Midjourney), with no open-source research from the academic community. To fill this gap, we propose CoTyle, the first open-source method for this task. Specifically, we first train a discrete style codebook from a collection of images to extract style embeddings. These embeddings serve as conditions for a text-to-image diffusion model (T2I-DM) to generate stylistic images. Subsequently, we train an autoregressive style generator on the discrete style embeddings to model their distribution, allowing the synthesis of novel style embeddings. During inference, a numerical style code is mapped to a unique style embedding by the style generator, and this embedding guides the T2I-DM to generate images in the corresponding style. Unlike existing methods, our method offers unparalleled simplicity and diversity, unlocking a vast space of reproducible styles from minimal input. Extensive experiments validate that CoTyle effectively turns a numerical code into a style controller, demonstrating a style is worth one code.