ChatPaper.aiChatPaper

SliderSpace: Разложение визуальных возможностей моделей диффузии

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

February 3, 2025
Авторы: Rohit Gandikota, Zongze Wu, Richard Zhang, David Bau, Eli Shechtman, Nick Kolkin
cs.AI

Аннотация

Мы представляем SliderSpace, фреймворк для автоматического декомпозиции визуальных возможностей моделей диффузии на управляемые и понятные человеку направления. В отличие от существующих методов управления, требующих от пользователя указания атрибутов для каждого направления редактирования индивидуально, SliderSpace одновременно обнаруживает несколько интерпретируемых и разнообразных направлений из одного текстового запроса. Каждое направление обучается как адаптер низкого ранга, обеспечивая композиционный контроль и обнаружение неожиданных возможностей в латентном пространстве модели. Через обширные эксперименты на современных моделях диффузии мы демонстрируем эффективность SliderSpace в трех приложениях: декомпозиция концепций, исследование художественного стиля и увеличение разнообразия. Наше количественное оценивание показывает, что направления, обнаруженные SliderSpace, эффективно декомпозируют визуальную структуру знаний модели, предлагая понимание латентных возможностей, закодированных в моделях диффузии. Пользовательские исследования дополнительно подтверждают, что наш метод производит более разнообразные и полезные вариации по сравнению с базовыми методами. Наш код, данные и обученные веса доступны по адресу https://sliderspace.baulab.info
English
We present SliderSpace, a framework for automatically decomposing the visual capabilities of diffusion models into controllable and human-understandable directions. Unlike existing control methods that require a user to specify attributes for each edit direction individually, SliderSpace discovers multiple interpretable and diverse directions simultaneously from a single text prompt. Each direction is trained as a low-rank adaptor, enabling compositional control and the discovery of surprising possibilities in the model's latent space. Through extensive experiments on state-of-the-art diffusion models, we demonstrate SliderSpace's effectiveness across three applications: concept decomposition, artistic style exploration, and diversity enhancement. Our quantitative evaluation shows that SliderSpace-discovered directions decompose the visual structure of model's knowledge effectively, offering insights into the latent capabilities encoded within diffusion models. User studies further validate that our method produces more diverse and useful variations compared to baselines. Our code, data and trained weights are available at https://sliderspace.baulab.info

Summary

AI-Generated Summary

PDF258February 4, 2025