ChatPaper.aiChatPaper

Стилькоды: Кодирование стилевой информации для генерации изображений

Stylecodes: Encoding Stylistic Information For Image Generation

November 19, 2024
Авторы: Ciara Rowles
cs.AI

Аннотация

Диффузионные модели отлично справляются с генерацией изображений, но их управление остается вызовом. Мы сосредотачиваемся на проблеме генерации изображений с учетом стиля. Хотя примеры изображений работают, они неудобны: srefs (коды стилевых ссылок) от MidJourney решают эту проблему, выражая определенный стиль изображения в коротком числовом коде. Они получили широкое распространение в социальных сетях благодаря легкости обмена и возможности использования изображения для управления стилем, не публикуя сами исходные изображения. Однако пользователи не могут создавать srefs из своих собственных изображений, и процедура обучения не является общедоступной. Мы предлагаем StyleCodes: архитектуру кодировщика стиля и процедуру обучения с открытым исходным кодом и исследованиями для выражения стиля изображения в виде кода base64 из 20 символов. Наши эксперименты показывают, что наше кодирование приводит к минимальным потерям качества по сравнению с традиционными техниками преобразования изображения в стиль.
English
Diffusion models excel in image generation, but controlling them remains a challenge. We focus on the problem of style-conditioned image generation. Although example images work, they are cumbersome: srefs (style-reference codes) from MidJourney solve this issue by expressing a specific image style in a short numeric code. These have seen widespread adoption throughout social media due to both their ease of sharing and the fact they allow using an image for style control, without having to post the source images themselves. However, users are not able to generate srefs from their own images, nor is the underlying training procedure public. We propose StyleCodes: an open-source and open-research style encoder architecture and training procedure to express image style as a 20-symbol base64 code. Our experiments show that our encoding results in minimal loss in quality compared to traditional image-to-style techniques.

Summary

AI-Generated Summary

PDF122November 21, 2024