ChatPaper.aiChatPaper

SliderSpace: Zerlegung der visuellen Fähigkeiten von Diffusionsmodellen

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

February 3, 2025
Autoren: Rohit Gandikota, Zongze Wu, Richard Zhang, David Bau, Eli Shechtman, Nick Kolkin
cs.AI

Zusammenfassung

Wir präsentieren SliderSpace, ein Framework zur automatischen Zerlegung der visuellen Fähigkeiten von Diffusionsmodellen in steuerbare und menschenverständliche Richtungen. Im Gegensatz zu bestehenden Steuerungsmethoden, die von einem Benutzer verlangen, Attribute für jede Bearbeitungsrichtung einzeln anzugeben, entdeckt SliderSpace gleichzeitig mehrere interpretierbare und vielfältige Richtungen aus einer einzigen Texteingabe. Jede Richtung wird als Adapter niedriger Rangordnung trainiert, was eine kompositionelle Steuerung und die Entdeckung überraschender Möglichkeiten im latenten Raum des Modells ermöglicht. Durch umfangreiche Experimente an hochmodernen Diffusionsmodellen zeigen wir die Wirksamkeit von SliderSpace in drei Anwendungen: Konzeptzerlegung, künstlerische Stilerkundung und Vielfaltserweiterung. Unsere quantitative Bewertung zeigt, dass die von SliderSpace entdeckten Richtungen die visuelle Struktur des Modellwissens effektiv zerlegen und Einblicke in die latenten Fähigkeiten bieten, die in Diffusionsmodellen codiert sind. Benutzerstudien bestätigen weiterhin, dass unsere Methode im Vergleich zu Baselines vielfältigere und nützlichere Variationen erzeugt. Unser Code, Daten und trainierte Gewichte sind unter https://sliderspace.baulab.info verfügbar.
English
We present SliderSpace, a framework for automatically decomposing the visual capabilities of diffusion models into controllable and human-understandable directions. Unlike existing control methods that require a user to specify attributes for each edit direction individually, SliderSpace discovers multiple interpretable and diverse directions simultaneously from a single text prompt. Each direction is trained as a low-rank adaptor, enabling compositional control and the discovery of surprising possibilities in the model's latent space. Through extensive experiments on state-of-the-art diffusion models, we demonstrate SliderSpace's effectiveness across three applications: concept decomposition, artistic style exploration, and diversity enhancement. Our quantitative evaluation shows that SliderSpace-discovered directions decompose the visual structure of model's knowledge effectively, offering insights into the latent capabilities encoded within diffusion models. User studies further validate that our method produces more diverse and useful variations compared to baselines. Our code, data and trained weights are available at https://sliderspace.baulab.info

Summary

AI-Generated Summary

PDF258February 4, 2025