SliderSpace: Decompondo as Capacidades Visuais dos Modelos de Difusão
SliderSpace: Decomposing the Visual Capabilities of Diffusion Models
February 3, 2025
Autores: Rohit Gandikota, Zongze Wu, Richard Zhang, David Bau, Eli Shechtman, Nick Kolkin
cs.AI
Resumo
Apresentamos o SliderSpace, um framework para decompor automaticamente as capacidades visuais de modelos de difusão em direções controláveis e compreensíveis pelos humanos. Ao contrário dos métodos de controle existentes que exigem que um usuário especifique atributos para cada direção de edição individualmente, o SliderSpace descobre múltiplas direções interpretáveis e diversas simultaneamente a partir de um único prompt de texto. Cada direção é treinada como um adaptador de baixa classificação, possibilitando controle composicional e a descoberta de possibilidades surpreendentes no espaço latente do modelo. Através de experimentos extensivos em modelos de difusão de ponta, demonstramos a eficácia do SliderSpace em três aplicações: decomposição de conceitos, exploração de estilo artístico e aumento de diversidade. Nossa avaliação quantitativa mostra que as direções descobertas pelo SliderSpace decomponem efetivamente a estrutura visual do conhecimento do modelo, oferecendo insights sobre as capacidades latentes codificadas nos modelos de difusão. Estudos de usuários validam ainda mais que nosso método produz variações mais diversas e úteis em comparação com as bases. Nosso código, dados e pesos treinados estão disponíveis em https://sliderspace.baulab.info
English
We present SliderSpace, a framework for automatically decomposing the visual
capabilities of diffusion models into controllable and human-understandable
directions. Unlike existing control methods that require a user to specify
attributes for each edit direction individually, SliderSpace discovers multiple
interpretable and diverse directions simultaneously from a single text prompt.
Each direction is trained as a low-rank adaptor, enabling compositional control
and the discovery of surprising possibilities in the model's latent space.
Through extensive experiments on state-of-the-art diffusion models, we
demonstrate SliderSpace's effectiveness across three applications: concept
decomposition, artistic style exploration, and diversity enhancement. Our
quantitative evaluation shows that SliderSpace-discovered directions decompose
the visual structure of model's knowledge effectively, offering insights into
the latent capabilities encoded within diffusion models. User studies further
validate that our method produces more diverse and useful variations compared
to baselines. Our code, data and trained weights are available at
https://sliderspace.baulab.infoSummary
AI-Generated Summary