Стиль стоит одного кода: раскрытие потенциала генерации изображений из кода в стиле с помощью дискретного стилевого пространства
A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space
November 13, 2025
Авторы: Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang
cs.AI
Аннотация
Инновационная визуальная стилизация является краеугольным камнем художественного творчества, однако генерация новых и последовательных визуальных стилей остается серьезной проблемой. Существующие генеративные подходы обычно полагаются на пространные текстовые промпты, референсные изображения или эффективную тонкую настройку параметров для управления стиле-ориентированной генерацией изображений, но часто сталкиваются с проблемами согласованности стиля, ограниченной креативностью и сложностью представления стилей. В данной работе мы утверждаем, что стиль стоит одного числового кода, вводя новую задачу генерации изображений по коду стиля (code-to-style), которая производит изображения с новыми, последовательными визуальными стилями, обусловленными исключительно числовым стилевым кодом. На сегодняшний день эта область исследовалась в основном индустрией (например, Midjourney), при этом отсутствуют открытые академические разработки. Чтобы заполнить этот пробел, мы предлагаем CoTyle — первый открытый метод для решения данной задачи. В частности, мы сначала обучаем дискретный стилевой кодбук на коллекции изображений для извлечения стилевых эмбеддингов. Эти эмбеддинги служат условиями для диффузионной модели текст-изображение (T2I-DM) для генерации стилизованных изображений. Затем мы обучаем авторегрессивный генератор стилей на дискретных стилевых эмбеддингах для моделирования их распределения, что позволяет синтезировать новые стилевые эмбеддинги. На этапе вывода числовой стилевой код отображается генератором стилей в уникальный стилевой эмбеддинг, который направляет T2I-DM для генерации изображений в соответствующем стиле. В отличие от существующих методов, наш подход предлагает беспрецедентную простоту и разнообразие, раскрывая огромное пространство воспроизводимых стилей из минимального ввода. Многочисленные эксперименты подтверждают, что CoTyle эффективно превращает числовой код в контроллер стиля, демонстрируя, что стиль стоит одного кода.
English
Innovative visual stylization is a cornerstone of artistic creation, yet generating novel and consistent visual styles remains a significant challenge. Existing generative approaches typically rely on lengthy textual prompts, reference images, or parameter-efficient fine-tuning to guide style-aware image generation, but often struggle with style consistency, limited creativity, and complex style representations. In this paper, we affirm that a style is worth one numerical code by introducing the novel task, code-to-style image generation, which produces images with novel, consistent visual styles conditioned solely on a numerical style code. To date, this field has only been primarily explored by the industry (e.g., Midjourney), with no open-source research from the academic community. To fill this gap, we propose CoTyle, the first open-source method for this task. Specifically, we first train a discrete style codebook from a collection of images to extract style embeddings. These embeddings serve as conditions for a text-to-image diffusion model (T2I-DM) to generate stylistic images. Subsequently, we train an autoregressive style generator on the discrete style embeddings to model their distribution, allowing the synthesis of novel style embeddings. During inference, a numerical style code is mapped to a unique style embedding by the style generator, and this embedding guides the T2I-DM to generate images in the corresponding style. Unlike existing methods, our method offers unparalleled simplicity and diversity, unlocking a vast space of reproducible styles from minimal input. Extensive experiments validate that CoTyle effectively turns a numerical code into a style controller, demonstrating a style is worth one code.