ChatPaper.aiChatPaper

TokenVerse: Универсальная многоконцептуальная персонализация в пространстве токенов модуляции

TokenVerse: Versatile Multi-concept Personalization in Token Modulation Space

January 21, 2025
Авторы: Daniel Garibi, Shahar Yadin, Roni Paiss, Omer Tov, Shiran Zada, Ariel Ephrat, Tomer Michaeli, Inbar Mosseri, Tali Dekel
cs.AI

Аннотация

Мы представляем TokenVerse - метод для многоконцептуальной персонализации, использующий предварительно обученную модель диффузии текста в изображение. Наша структура способна разделять сложные визуальные элементы и атрибуты даже по одному изображению, обеспечивая легкую генерацию комбинаций концепций, извлеченных из нескольких изображений. В отличие от существующих работ, TokenVerse может обрабатывать несколько изображений с несколькими концепциями каждое и поддерживает широкий спектр концепций, включая объекты, аксессуары, материалы, позу и освещение. Наша работа использует модель текста в изображение на основе DiT, в которой входной текст влияет на генерацию через внимание и модуляцию (сдвиг и масштаб). Мы замечаем, что пространство модуляции является семантическим и обеспечивает локализованное управление над сложными концепциями. Основываясь на этом наблюдении, мы разрабатываем оптимизационную структуру, которая принимает на вход изображение и текстовое описание, и находит для каждого слова отдельное направление в пространстве модуляции. Эти направления могут быть использованы для генерации новых изображений, объединяющих изученные концепции в желаемой конфигурации. Мы демонстрируем эффективность TokenVerse в сложных настройках персонализации и показываем его преимущества по сравнению с существующими методами. Веб-страница проекта: https://token-verse.github.io/
English
We present TokenVerse -- a method for multi-concept personalization, leveraging a pre-trained text-to-image diffusion model. Our framework can disentangle complex visual elements and attributes from as little as a single image, while enabling seamless plug-and-play generation of combinations of concepts extracted from multiple images. As opposed to existing works, TokenVerse can handle multiple images with multiple concepts each, and supports a wide-range of concepts, including objects, accessories, materials, pose, and lighting. Our work exploits a DiT-based text-to-image model, in which the input text affects the generation through both attention and modulation (shift and scale). We observe that the modulation space is semantic and enables localized control over complex concepts. Building on this insight, we devise an optimization-based framework that takes as input an image and a text description, and finds for each word a distinct direction in the modulation space. These directions can then be used to generate new images that combine the learned concepts in a desired configuration. We demonstrate the effectiveness of TokenVerse in challenging personalization settings, and showcase its advantages over existing methods. project's webpage in https://token-verse.github.io/

Summary

AI-Generated Summary

PDF482January 22, 2025