Ein Stil entspricht einem Code: Entschlüsselung der Code-zu-Stil-Bildgenerierung mit diskretem Stilraum

Zusammenfassung

Innovative visuelle Stilisierung ist ein Grundpfeiler der künstlerischen Schöpfung, doch die Erzeugung neuartiger und konsistenter visueller Stile bleibt eine große Herausforderung. Bestehende generative Ansätze stützen sich typischerweise auf umfangreiche textuelle Eingabeaufforderungen, Referenzbilder oder parameter-effizientes Fine-Tuning, um stilbewusste Bildgenerierung zu steuern, haben jedoch oft mit Stilkonsistenz, begrenzter Kreativität und komplexen Stilrepräsentationen zu kämpfen. In diesem Beitrag bekräftigen wir, dass ein Stil einen numerischen Code wert ist, indem wir die neuartige Aufgabe der Code-zu-Stil-Bildgenerierung einführen, die Bilder mit neuartigen, konsistenten visuellen Stilen erzeugt, die ausschließlich auf einem numerischen Stilcode basieren. Bislang wurde dieses Feld hauptsächlich nur von der Industrie (z.B. Midjourney) erkundet, ohne open-source Forschung aus der akademischen Gemeinschaft. Um diese Lücke zu schließen, schlagen wir CoTyle vor, die erste open-source Methode für diese Aufgabe. Konkret trainieren wir zunächst ein diskretes Stilcodebuch aus einer Sammlung von Bildern, um Stil-Einbettungen zu extrahieren. Diese Einbettungen dienen als Bedingungen für ein Text-zu-Bild-Diffusionsmodell (T2I-DM), um stilisierte Bilder zu generieren. Anschließend trainieren wir einen autoregressiven Stilgenerator auf den diskreten Stileinbettungen, um deren Verteilung zu modellieren, was die Synthese neuartiger Stileinbettungen ermöglicht. Während der Inferenz wird ein numerischer Stilcode durch den Stilgenerator auf eine eindeutige Stileinbettung abgebildet, und diese Einbettung steuert das T2I-DM bei der Generierung von Bildern im entsprechenden Stil. Im Gegensatz zu bestehenden Methoden bietet unser Ansatz unübertroffene Einfachheit und Vielfalt und erschließt einen riesigen Raum reproduzierbarer Stile aus minimaler Eingabe. Umfangreiche Experimente bestätigen, dass CoTyle effektiv einen numerischen Code in einen Stilcontroller verwandelt und demonstrieren, dass ein Stil einen Code wert ist.

English

Innovative visual stylization is a cornerstone of artistic creation, yet generating novel and consistent visual styles remains a significant challenge. Existing generative approaches typically rely on lengthy textual prompts, reference images, or parameter-efficient fine-tuning to guide style-aware image generation, but often struggle with style consistency, limited creativity, and complex style representations. In this paper, we affirm that a style is worth one numerical code by introducing the novel task, code-to-style image generation, which produces images with novel, consistent visual styles conditioned solely on a numerical style code. To date, this field has only been primarily explored by the industry (e.g., Midjourney), with no open-source research from the academic community. To fill this gap, we propose CoTyle, the first open-source method for this task. Specifically, we first train a discrete style codebook from a collection of images to extract style embeddings. These embeddings serve as conditions for a text-to-image diffusion model (T2I-DM) to generate stylistic images. Subsequently, we train an autoregressive style generator on the discrete style embeddings to model their distribution, allowing the synthesis of novel style embeddings. During inference, a numerical style code is mapped to a unique style embedding by the style generator, and this embedding guides the T2I-DM to generate images in the corresponding style. Unlike existing methods, our method offers unparalleled simplicity and diversity, unlocking a vast space of reproducible styles from minimal input. Extensive experiments validate that CoTyle effectively turns a numerical code into a style controller, demonstrating a style is worth one code.

Ein Stil entspricht einem Code: Entschlüsselung der Code-zu-Stil-Bildgenerierung mit diskretem Stilraum

A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

Zusammenfassung

Support