ChatPaper.aiChatPaper

Un style vaut un code : Libérer la génération d'images code-vers-style avec un espace de styles discrets

A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

November 13, 2025
papers.authors: Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang
cs.AI

papers.abstract

La stylisation visuelle innovante est une pierre angulaire de la création artistique, mais la génération de styles visuels nouveaux et cohérents reste un défi majeur. Les approches génératives existantes reposent généralement sur des invites textuelles longues, des images de référence ou du *fine-tuning* économe en paramètres pour guider la génération d'images sensibles au style, mais elles peinent souvent avec la cohérence stylistique, la créativité limitée et les représentations de styles complexes. Dans cet article, nous affirmons qu'un style vaut un code numérique en introduisant la nouvelle tâche de génération d'images code-à-style, qui produit des images avec des styles visuels nouveaux et cohérents conditionnés uniquement par un code de style numérique. À ce jour, ce domaine n'a été principalement exploré que par l'industrie (par exemple, Midjourney), sans recherche open-source de la communauté académique. Pour combler cette lacune, nous proposons CoTyle, la première méthode open-source pour cette tâche. Concrètement, nous entraînons d'abord un *codebook* de styles discrets à partir d'une collection d'images pour extraire des embeddings stylistiques. Ces embeddings servent de conditions à un modèle de diffusion texte-à-image (T2I-DM) pour générer des images stylisées. Ensuite, nous entraînons un générateur de styles autorégressif sur les embeddings de styles discrets pour modéliser leur distribution, permettant la synthèse de nouveaux embeddings stylistiques. Lors de l'inférence, un code de style numérique est mappé à un embedding de style unique par le générateur de styles, et cet embedding guide le T2I-DM pour générer des images dans le style correspondant. Contrairement aux méthodes existantes, notre offre offre une simplicité et une diversité inégalées, déverrouillant un vaste espace de styles reproductibles à partir d'une entrée minimale. Des expériences approfondies valident que CoTyle transforme efficacement un code numérique en contrôleur de style, démontrant qu'un style vaut bien un code.
English
Innovative visual stylization is a cornerstone of artistic creation, yet generating novel and consistent visual styles remains a significant challenge. Existing generative approaches typically rely on lengthy textual prompts, reference images, or parameter-efficient fine-tuning to guide style-aware image generation, but often struggle with style consistency, limited creativity, and complex style representations. In this paper, we affirm that a style is worth one numerical code by introducing the novel task, code-to-style image generation, which produces images with novel, consistent visual styles conditioned solely on a numerical style code. To date, this field has only been primarily explored by the industry (e.g., Midjourney), with no open-source research from the academic community. To fill this gap, we propose CoTyle, the first open-source method for this task. Specifically, we first train a discrete style codebook from a collection of images to extract style embeddings. These embeddings serve as conditions for a text-to-image diffusion model (T2I-DM) to generate stylistic images. Subsequently, we train an autoregressive style generator on the discrete style embeddings to model their distribution, allowing the synthesis of novel style embeddings. During inference, a numerical style code is mapped to a unique style embedding by the style generator, and this embedding guides the T2I-DM to generate images in the corresponding style. Unlike existing methods, our method offers unparalleled simplicity and diversity, unlocking a vast space of reproducible styles from minimal input. Extensive experiments validate that CoTyle effectively turns a numerical code into a style controller, demonstrating a style is worth one code.
PDF592December 1, 2025