ChatPaper.aiChatPaper

スライダースペース:拡散モデルの視覚能力の分解

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

February 3, 2025
著者: Rohit Gandikota, Zongze Wu, Richard Zhang, David Bau, Eli Shechtman, Nick Kolkin
cs.AI

要旨

私たちは、SliderSpaceというフレームワークを提案します。このフレームワークは、拡散モデルの視覚的な能力を制御可能で人間が理解しやすい方向に自動的に分解するためのものです。従来の制御方法とは異なり、SliderSpaceはユーザーが個々の編集方向ごとに属性を指定する必要がなく、1つのテキストプロンプトから複数の解釈可能で多様な方向を同時に発見します。各方向は低ランクアダプターとしてトレーニングされており、合成的な制御とモデルの潜在空間における驚くべき可能性の発見を実現しています。最先端の拡散モデルに関する包括的な実験を通じて、コンセプトの分解、芸術的スタイルの探索、および多様性の向上という3つのアプリケーションにおいて、SliderSpaceの効果を実証しています。定量的評価により、SliderSpaceが発見した方向がモデルの知識の視覚構造を効果的に分解し、拡散モデルにエンコードされた潜在的な能力に関する洞察を提供していることが示されています。ユーザースタディにより、当社の手法がベースラインと比較してより多様で有用なバリエーションを生成することがさらに検証されています。当社のコード、データ、およびトレーニング済みの重みは、https://sliderspace.baulab.info で入手可能です。
English
We present SliderSpace, a framework for automatically decomposing the visual capabilities of diffusion models into controllable and human-understandable directions. Unlike existing control methods that require a user to specify attributes for each edit direction individually, SliderSpace discovers multiple interpretable and diverse directions simultaneously from a single text prompt. Each direction is trained as a low-rank adaptor, enabling compositional control and the discovery of surprising possibilities in the model's latent space. Through extensive experiments on state-of-the-art diffusion models, we demonstrate SliderSpace's effectiveness across three applications: concept decomposition, artistic style exploration, and diversity enhancement. Our quantitative evaluation shows that SliderSpace-discovered directions decompose the visual structure of model's knowledge effectively, offering insights into the latent capabilities encoded within diffusion models. User studies further validate that our method produces more diverse and useful variations compared to baselines. Our code, data and trained weights are available at https://sliderspace.baulab.info

Summary

AI-Generated Summary

PDF258February 4, 2025