SliderSpace : Décomposition des Capacités Visuelles des Modèles de Diffusion
SliderSpace: Decomposing the Visual Capabilities of Diffusion Models
February 3, 2025
Auteurs: Rohit Gandikota, Zongze Wu, Richard Zhang, David Bau, Eli Shechtman, Nick Kolkin
cs.AI
Résumé
Nous présentons SliderSpace, un cadre pour décomposer automatiquement les capacités visuelles des modèles de diffusion en directions contrôlables et compréhensibles par l'humain. Contrairement aux méthodes de contrôle existantes qui exigent qu'un utilisateur spécifie des attributs pour chaque direction d'édition individuellement, SliderSpace découvre simultanément plusieurs directions interprétables et diverses à partir d'une seule instruction textuelle. Chaque direction est entraînée en tant qu'adaptateur de faible rang, permettant un contrôle compositionnel et la découverte de possibilités surprenantes dans l'espace latent du modèle. À travers des expériences approfondies sur des modèles de diffusion de pointe, nous démontrons l'efficacité de SliderSpace à travers trois applications : décomposition de concepts, exploration de styles artistiques et amélioration de la diversité. Notre évaluation quantitative montre que les directions découvertes par SliderSpace décomposent efficacement la structure visuelle des connaissances du modèle, offrant des perspectives sur les capacités latentes encodées dans les modèles de diffusion. Des études utilisateurs valident en outre que notre méthode produit des variations plus diverses et utiles par rapport aux bases de référence. Notre code, nos données et nos poids entraînés sont disponibles sur https://sliderspace.baulab.info.
English
We present SliderSpace, a framework for automatically decomposing the visual
capabilities of diffusion models into controllable and human-understandable
directions. Unlike existing control methods that require a user to specify
attributes for each edit direction individually, SliderSpace discovers multiple
interpretable and diverse directions simultaneously from a single text prompt.
Each direction is trained as a low-rank adaptor, enabling compositional control
and the discovery of surprising possibilities in the model's latent space.
Through extensive experiments on state-of-the-art diffusion models, we
demonstrate SliderSpace's effectiveness across three applications: concept
decomposition, artistic style exploration, and diversity enhancement. Our
quantitative evaluation shows that SliderSpace-discovered directions decompose
the visual structure of model's knowledge effectively, offering insights into
the latent capabilities encoded within diffusion models. User studies further
validate that our method produces more diverse and useful variations compared
to baselines. Our code, data and trained weights are available at
https://sliderspace.baulab.infoSummary
AI-Generated Summary