Стилькоды: Кодирование стилевой информации для генерации изображений
Stylecodes: Encoding Stylistic Information For Image Generation
November 19, 2024
Авторы: Ciara Rowles
cs.AI
Аннотация
Диффузионные модели отлично справляются с генерацией изображений, но их управление остается вызовом. Мы сосредотачиваемся на проблеме генерации изображений с учетом стиля. Хотя примеры изображений работают, они неудобны: srefs (коды стилевых ссылок) от MidJourney решают эту проблему, выражая определенный стиль изображения в коротком числовом коде. Они получили широкое распространение в социальных сетях благодаря легкости обмена и возможности использования изображения для управления стилем, не публикуя сами исходные изображения. Однако пользователи не могут создавать srefs из своих собственных изображений, и процедура обучения не является общедоступной. Мы предлагаем StyleCodes: архитектуру кодировщика стиля и процедуру обучения с открытым исходным кодом и исследованиями для выражения стиля изображения в виде кода base64 из 20 символов. Наши эксперименты показывают, что наше кодирование приводит к минимальным потерям качества по сравнению с традиционными техниками преобразования изображения в стиль.
English
Diffusion models excel in image generation, but controlling them remains a
challenge. We focus on the problem of style-conditioned image generation.
Although example images work, they are cumbersome: srefs (style-reference
codes) from MidJourney solve this issue by expressing a specific image style in
a short numeric code. These have seen widespread adoption throughout social
media due to both their ease of sharing and the fact they allow using an image
for style control, without having to post the source images themselves.
However, users are not able to generate srefs from their own images, nor is the
underlying training procedure public. We propose StyleCodes: an open-source and
open-research style encoder architecture and training procedure to express
image style as a 20-symbol base64 code. Our experiments show that our encoding
results in minimal loss in quality compared to traditional image-to-style
techniques.Summary
AI-Generated Summary