スタイルはコードに値する:離散スタイル空間によるコードからスタイルへの画像生成の解放
A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space
November 13, 2025
著者: Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang
cs.AI
要旨
革新的な視覚的スタイライゼーションは芸術的創造の基盤であるが、新規性のある一貫した視覚スタイルの生成は依然として大きな課題である。既存の生成手法では、スタイルを意識した画像生成を誘導するために、長文のテキストプロンプト、参照画像、またはパラメータ効率の良いファインチューニングに依存することが一般的だが、スタイルの一貫性、創造性の限界、複雑なスタイル表現に悩むことが多い。本論文では、スタイルは単一の数値コードに値するという主張を、新規タスク「コードからスタイルへの画像生成」の導入によって実証する。これは、数値的なスタイルコードのみを条件として、新規で一貫した視覚スタイルを持つ画像を生成するものである。現在まで、この分野は主に産業界(例:Midjourney)によってのみ探求されており、学術コミュニティからのオープンソース研究は存在しない。この空白を埋めるため、本論文ではこのタスクにおける初のオープンソース手法であるCoTyleを提案する。具体的には、まず画像コレクションから離散スタイルコードブックを学習し、スタイル埋め込みを抽出する。これらの埋め込みは、テキストから画像への拡散モデル(T2I-DM)がスタイル的な画像を生成するための条件として機能する。続いて、離散スタイル埋め込みに対して自己回帰型スタイル生成器を訓練し、その分布をモデル化することで、新規のスタイル埋め込みの合成を可能にする。推論時には、数値スタイルコードがスタイル生成器によって一意のスタイル埋め込みにマッピングされ、この埋め込みがT2I-DMを誘導して対応するスタイルの画像を生成する。既存手法とは異なり、本手法は比類のない簡潔さと多様性を提供し、最小限の入力から再現可能なスタイルの広大な空間を解放する。大規模な実験により、CoTyleが数値コードをスタイル制御装置に効果的に変換し、「スタイルは単一のコードに値する」ことを実証する。
English
Innovative visual stylization is a cornerstone of artistic creation, yet generating novel and consistent visual styles remains a significant challenge. Existing generative approaches typically rely on lengthy textual prompts, reference images, or parameter-efficient fine-tuning to guide style-aware image generation, but often struggle with style consistency, limited creativity, and complex style representations. In this paper, we affirm that a style is worth one numerical code by introducing the novel task, code-to-style image generation, which produces images with novel, consistent visual styles conditioned solely on a numerical style code. To date, this field has only been primarily explored by the industry (e.g., Midjourney), with no open-source research from the academic community. To fill this gap, we propose CoTyle, the first open-source method for this task. Specifically, we first train a discrete style codebook from a collection of images to extract style embeddings. These embeddings serve as conditions for a text-to-image diffusion model (T2I-DM) to generate stylistic images. Subsequently, we train an autoregressive style generator on the discrete style embeddings to model their distribution, allowing the synthesis of novel style embeddings. During inference, a numerical style code is mapped to a unique style embedding by the style generator, and this embedding guides the T2I-DM to generate images in the corresponding style. Unlike existing methods, our method offers unparalleled simplicity and diversity, unlocking a vast space of reproducible styles from minimal input. Extensive experiments validate that CoTyle effectively turns a numerical code into a style controller, demonstrating a style is worth one code.