ChatPaper.aiChatPaper

SliderSpace : Décomposition des Capacités Visuelles des Modèles de Diffusion

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

February 3, 2025
Auteurs: Rohit Gandikota, Zongze Wu, Richard Zhang, David Bau, Eli Shechtman, Nick Kolkin
cs.AI

Résumé

Nous présentons SliderSpace, un cadre pour décomposer automatiquement les capacités visuelles des modèles de diffusion en directions contrôlables et compréhensibles par l'humain. Contrairement aux méthodes de contrôle existantes qui exigent qu'un utilisateur spécifie des attributs pour chaque direction d'édition individuellement, SliderSpace découvre simultanément plusieurs directions interprétables et diverses à partir d'une seule instruction textuelle. Chaque direction est entraînée en tant qu'adaptateur de faible rang, permettant un contrôle compositionnel et la découverte de possibilités surprenantes dans l'espace latent du modèle. À travers des expériences approfondies sur des modèles de diffusion de pointe, nous démontrons l'efficacité de SliderSpace à travers trois applications : décomposition de concepts, exploration de styles artistiques et amélioration de la diversité. Notre évaluation quantitative montre que les directions découvertes par SliderSpace décomposent efficacement la structure visuelle des connaissances du modèle, offrant des perspectives sur les capacités latentes encodées dans les modèles de diffusion. Des études utilisateurs valident en outre que notre méthode produit des variations plus diverses et utiles par rapport aux bases de référence. Notre code, nos données et nos poids entraînés sont disponibles sur https://sliderspace.baulab.info.
English
We present SliderSpace, a framework for automatically decomposing the visual capabilities of diffusion models into controllable and human-understandable directions. Unlike existing control methods that require a user to specify attributes for each edit direction individually, SliderSpace discovers multiple interpretable and diverse directions simultaneously from a single text prompt. Each direction is trained as a low-rank adaptor, enabling compositional control and the discovery of surprising possibilities in the model's latent space. Through extensive experiments on state-of-the-art diffusion models, we demonstrate SliderSpace's effectiveness across three applications: concept decomposition, artistic style exploration, and diversity enhancement. Our quantitative evaluation shows that SliderSpace-discovered directions decompose the visual structure of model's knowledge effectively, offering insights into the latent capabilities encoded within diffusion models. User studies further validate that our method produces more diverse and useful variations compared to baselines. Our code, data and trained weights are available at https://sliderspace.baulab.info

Summary

AI-Generated Summary

PDF258February 4, 2025