SliderSpace: Descomponiendo las Capacidades Visuales de los Modelos de Difusión
SliderSpace: Decomposing the Visual Capabilities of Diffusion Models
February 3, 2025
Autores: Rohit Gandikota, Zongze Wu, Richard Zhang, David Bau, Eli Shechtman, Nick Kolkin
cs.AI
Resumen
Presentamos SliderSpace, un marco para descomponer automáticamente las capacidades visuales de los modelos de difusión en direcciones controlables y comprensibles para los humanos. A diferencia de los métodos de control existentes que requieren que un usuario especifique atributos para cada dirección de edición individualmente, SliderSpace descubre múltiples direcciones interpretables y diversas simultáneamente a partir de una única indicación de texto. Cada dirección se entrena como un adaptador de rango bajo, lo que permite un control compositivo y el descubrimiento de posibilidades sorprendentes en el espacio latente del modelo. A través de experimentos exhaustivos en modelos de difusión de última generación, demostramos la efectividad de SliderSpace en tres aplicaciones: descomposición de conceptos, exploración de estilos artísticos y mejora de la diversidad. Nuestra evaluación cuantitativa muestra que las direcciones descubiertas por SliderSpace descomponen la estructura visual del conocimiento del modelo de manera efectiva, ofreciendo información sobre las capacidades latentes codificadas dentro de los modelos de difusión. Estudios de usuarios validan además que nuestro método produce variaciones más diversas y útiles en comparación con los métodos de referencia. Nuestro código, datos y pesos entrenados están disponibles en https://sliderspace.baulab.info
English
We present SliderSpace, a framework for automatically decomposing the visual
capabilities of diffusion models into controllable and human-understandable
directions. Unlike existing control methods that require a user to specify
attributes for each edit direction individually, SliderSpace discovers multiple
interpretable and diverse directions simultaneously from a single text prompt.
Each direction is trained as a low-rank adaptor, enabling compositional control
and the discovery of surprising possibilities in the model's latent space.
Through extensive experiments on state-of-the-art diffusion models, we
demonstrate SliderSpace's effectiveness across three applications: concept
decomposition, artistic style exploration, and diversity enhancement. Our
quantitative evaluation shows that SliderSpace-discovered directions decompose
the visual structure of model's knowledge effectively, offering insights into
the latent capabilities encoded within diffusion models. User studies further
validate that our method produces more diverse and useful variations compared
to baselines. Our code, data and trained weights are available at
https://sliderspace.baulab.infoSummary
AI-Generated Summary