SliderSpace: Het ontleden van de visuele mogelijkheden van diffusiemodellen
SliderSpace: Decomposing the Visual Capabilities of Diffusion Models
February 3, 2025
Auteurs: Rohit Gandikota, Zongze Wu, Richard Zhang, David Bau, Eli Shechtman, Nick Kolkin
cs.AI
Samenvatting
Wij presenteren SliderSpace, een framework voor het automatisch ontleden van de visuele mogelijkheden van diffusiemodellen in controleerbare en menselijk begrijpelijke richtingen. In tegenstelling tot bestaande controlemethoden die vereisen dat een gebruiker attributen specificeert voor elke bewerkingsrichting afzonderlijk, ontdekt SliderSpace meerdere interpreteerbare en diverse richtingen tegelijkertijd vanuit een enkele tekstprompt. Elke richting wordt getraind als een laag-rang adapter, waardoor compositorische controle en de ontdekking van verrassende mogelijkheden in de latente ruimte van het model mogelijk zijn. Via uitgebreide experimenten met state-of-the-art diffusiemodellen tonen we de effectiviteit van SliderSpace aan in drie toepassingen: conceptontleding, artistieke stijlexploratie en diversiteitsverbetering. Onze kwantitatieve evaluatie toont aan dat de door SliderSpace ontdekte richtingen de visuele structuur van de kennis van het model effectief ontleden, inzichten biedend in de latente mogelijkheden gecodeerd binnen diffusiemodellen. Gebruikersstudies bevestigen verder dat onze methode meer diverse en nuttige variaties produceert in vergelijking met baselines. Onze code, data en getrainde gewichten zijn beschikbaar op https://sliderspace.baulab.info
English
We present SliderSpace, a framework for automatically decomposing the visual
capabilities of diffusion models into controllable and human-understandable
directions. Unlike existing control methods that require a user to specify
attributes for each edit direction individually, SliderSpace discovers multiple
interpretable and diverse directions simultaneously from a single text prompt.
Each direction is trained as a low-rank adaptor, enabling compositional control
and the discovery of surprising possibilities in the model's latent space.
Through extensive experiments on state-of-the-art diffusion models, we
demonstrate SliderSpace's effectiveness across three applications: concept
decomposition, artistic style exploration, and diversity enhancement. Our
quantitative evaluation shows that SliderSpace-discovered directions decompose
the visual structure of model's knowledge effectively, offering insights into
the latent capabilities encoded within diffusion models. User studies further
validate that our method produces more diverse and useful variations compared
to baselines. Our code, data and trained weights are available at
https://sliderspace.baulab.infoSummary
AI-Generated Summary