ChatPaper.aiChatPaper

Face0: Мгновенное кондиционирование модели генерации изображений по тексту на основе лица

Face0: Instantaneously Conditioning a Text-to-Image Model on a Face

June 11, 2023
Авторы: Dani Valevski, Danny Wasserman, Yossi Matias, Yaniv Leviathan
cs.AI

Аннотация

Мы представляем Face0 — новый способ мгновенного задания условий для модели генерации изображений по тексту на основе лица, в режиме реального времени, без каких-либо процедур оптимизации, таких как тонкая настройка или инверсии. Мы расширяем набор данных аннотированных изображений, добавляя в него эмбеддинги лиц, и обучаем модель генерации изображений на этом расширенном наборе данных. После обучения наша система практически не отличается на этапе вывода от базовой модели, что позволяет ей генерировать изображения по предоставленному пользователем изображению лица и текстовому запросу всего за несколько секунд. Наш метод демонстрирует приятные результаты, отличается замечательной простотой, чрезвычайной скоростью и наделяет базовую модель новыми возможностями, такими как управление генерируемыми изображениями как через текст, так и через прямое манипулирование эмбеддингами входного лица. Кроме того, при использовании фиксированного случайного вектора вместо эмбеддинга лица из предоставленного пользователем изображения наш метод фактически решает проблему согласованной генерации персонажа на разных изображениях. Наконец, хотя для этого требуется дальнейшее исследование, мы надеемся, что наш метод, который разделяет текстовые предубеждения модели и её предубеждения относительно лиц, может стать шагом к смягчению предубеждений в будущих моделях генерации изображений по тексту.
English
We present Face0, a novel way to instantaneously condition a text-to-image generation model on a face, in sample time, without any optimization procedures such as fine-tuning or inversions. We augment a dataset of annotated images with embeddings of the included faces and train an image generation model, on the augmented dataset. Once trained, our system is practically identical at inference time to the underlying base model, and is therefore able to generate images, given a user-supplied face image and a prompt, in just a couple of seconds. Our method achieves pleasing results, is remarkably simple, extremely fast, and equips the underlying model with new capabilities, like controlling the generated images both via text or via direct manipulation of the input face embeddings. In addition, when using a fixed random vector instead of a face embedding from a user supplied image, our method essentially solves the problem of consistent character generation across images. Finally, while requiring further research, we hope that our method, which decouples the model's textual biases from its biases on faces, might be a step towards some mitigation of biases in future text-to-image models.
PDF171December 15, 2024