Een stijl is één code waard: Ontsluiting van code-naar-stijl beeldgeneratie met een discrete stijlruimte
A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space
November 13, 2025
Auteurs: Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang
cs.AI
Samenvatting
Innovatieve visuele stilisering is een hoeksteen van artistieke creatie, maar het genereren van nieuwe en consistente visuele stijlen blijft een grote uitdaging. Bestaande generatieve benaderingen vertrouwen doorgaans op uitgebreide tekstuele prompts, referentiebeelden of parameter-efficiënte fine-tuning om stijlbewuste beeldgeneratie te sturen, maar kampen vaak met stijlonconsistentie, beperkte creativiteit en complexe stijlrepresentaties. In dit artikel bevestigen wij dat een stijl één numerieke code waard is door de introductie van de nieuwe taak code-naar-stijl beeldgeneratie, waarbij beelden met nieuwe, consistente visuele stijlen worden gegenereerd uitsluitend gebaseerd op een numerieke stijlcode. Tot op heden is dit domein voornamelijk door de industrie verkend (bijvoorbeeld Midjourney), zonder open-source onderzoek vanuit de academische gemeenschap. Om deze leemte op te vullen, presenteren wij CoTyle, de eerste open-source methode voor deze taak. Concreet trainen wij eerst een discrete stijlcodeboek vanuit een verzameling beelden om stijlinbeddingen te extraheren. Deze inbeddingen dienen als condities voor een tekst-naar-beeld diffusiemodel (T2I-DM) om stijlvolle beelden te genereren. Vervolgens trainen wij een autoregressieve stijlgenerator op de discrete stijlinbeddingen om hun distributie te modelleren, wat de synthese van nieuwe stijlinbeddingen mogelijk maakt. Tijdens inferentie wordt een numerieke stijlcode door de stijlgenerator afgebeeld op een unieke stijlinbedding, en deze inbedding stuurt het T2I-DM aan om beelden in de corresponderende stijl te genereren. In tegenstelling tot bestaande methodes biedt onze aanpak ongeëvenaarde eenvoud en diversiteit, en ontsluit zij een enorme ruimte van reproduceerbare stijlen vanuit minimale input. Uitgebreide experimenten valideren dat CoTyle effectief een numerieke code omzet in een stijlcontroller, wat aantoont dat een stijl één code waard is.
English
Innovative visual stylization is a cornerstone of artistic creation, yet generating novel and consistent visual styles remains a significant challenge. Existing generative approaches typically rely on lengthy textual prompts, reference images, or parameter-efficient fine-tuning to guide style-aware image generation, but often struggle with style consistency, limited creativity, and complex style representations. In this paper, we affirm that a style is worth one numerical code by introducing the novel task, code-to-style image generation, which produces images with novel, consistent visual styles conditioned solely on a numerical style code. To date, this field has only been primarily explored by the industry (e.g., Midjourney), with no open-source research from the academic community. To fill this gap, we propose CoTyle, the first open-source method for this task. Specifically, we first train a discrete style codebook from a collection of images to extract style embeddings. These embeddings serve as conditions for a text-to-image diffusion model (T2I-DM) to generate stylistic images. Subsequently, we train an autoregressive style generator on the discrete style embeddings to model their distribution, allowing the synthesis of novel style embeddings. During inference, a numerical style code is mapped to a unique style embedding by the style generator, and this embedding guides the T2I-DM to generate images in the corresponding style. Unlike existing methods, our method offers unparalleled simplicity and diversity, unlocking a vast space of reproducible styles from minimal input. Extensive experiments validate that CoTyle effectively turns a numerical code into a style controller, demonstrating a style is worth one code.