스타일 하나가 코드 하나의 가치: 이산 스타일 공간을 활용한 코드-투-스타일 이미지 생성의 해법
A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space
November 13, 2025
저자: Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang
cs.AI
초록
혁신적인 시각적 스타일화는 예술 창작의 초석이지만, 새롭고 일관된 시각 스타일을 생성하는 것은 여전히 큰 과제로 남아 있습니다. 기존 생성 방법들은 일반적으로 장문의 텍스트 프롬프트, 참조 이미지, 또는 매개변수 효율적 미세 조정에 의존하여 스타일 인식 이미지 생성을 유도하지만, 스타일 일관성, 제한된 창의성, 복잡한 스타일 표현에 어려움을 겪는 경우가 많습니다. 본 논문에서는 수치적 스타일 코드만을 조건으로 하여 새롭고 일관된 시각 스타일의 이미지를 생성하는 새로운 과제인 코드-투-스타일 이미지 생성(code-to-style image generation)을 소개함으로써 하나의 스타일이 하나의 수치 코드에 해당함을 주장합니다. 현재까지 이 분야는 주로 산업계(예: Midjourney)에서만 탐구되었으며, 학계의 오픈소스 연구는 존재하지 않습니다. 이러한 공백을 메우기 위해, 우리는 본 과제를 위한 최초의 오픈소스 방법론인 CoTyle을 제안합니다. 구체적으로, 우리는 먼저 이미지 컬렉션으로부터 이산 스타일 코드북을 학습하여 스타일 임베딩을 추출합니다. 이러한 임베딩은 텍스트-투-이미지 확산 모델(T2I-DM)이 스타일적 이미지를 생성하도록 하는 조건으로 작용합니다. 이후, 우리는 이산 스타일 임베딩에 대해 자기회귀 스타일 생성기를 학습하여 그 분포를 모델링함으로써 새로운 스타일 임베딩의 합성을 가능하게 합니다. 추론 단계에서는 수치적 스타일 코드가 스타일 생성기에 의해 고유한 스타일 임베딩으로 매핑되며, 이 임베딩이 T2I-DM을 안내하여 해당 스타일의 이미지를 생성합니다. 기존 방법과 달리, 우리의 방법은 비할 나위 없는 단순성과 다양성을 제공하며, 최소한의 입력으로부터 재현 가능한 방대한 스타일 공간을 개방합니다. 폭넓은 실험을 통해 CoTyle이 수치 코드를 효과적으로 스타일 제어기로 전환하며, 하나의 스타일이 하나의 코드에 해당함을 입증합니다.
English
Innovative visual stylization is a cornerstone of artistic creation, yet generating novel and consistent visual styles remains a significant challenge. Existing generative approaches typically rely on lengthy textual prompts, reference images, or parameter-efficient fine-tuning to guide style-aware image generation, but often struggle with style consistency, limited creativity, and complex style representations. In this paper, we affirm that a style is worth one numerical code by introducing the novel task, code-to-style image generation, which produces images with novel, consistent visual styles conditioned solely on a numerical style code. To date, this field has only been primarily explored by the industry (e.g., Midjourney), with no open-source research from the academic community. To fill this gap, we propose CoTyle, the first open-source method for this task. Specifically, we first train a discrete style codebook from a collection of images to extract style embeddings. These embeddings serve as conditions for a text-to-image diffusion model (T2I-DM) to generate stylistic images. Subsequently, we train an autoregressive style generator on the discrete style embeddings to model their distribution, allowing the synthesis of novel style embeddings. During inference, a numerical style code is mapped to a unique style embedding by the style generator, and this embedding guides the T2I-DM to generate images in the corresponding style. Unlike existing methods, our method offers unparalleled simplicity and diversity, unlocking a vast space of reproducible styles from minimal input. Extensive experiments validate that CoTyle effectively turns a numerical code into a style controller, demonstrating a style is worth one code.