ChatPaper.aiChatPaper

SliderSpace: Decomposizione delle Capacità Visive dei Modelli di Diffusione

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

February 3, 2025
Autori: Rohit Gandikota, Zongze Wu, Richard Zhang, David Bau, Eli Shechtman, Nick Kolkin
cs.AI

Abstract

Presentiamo SliderSpace, un framework per decomporre automaticamente le capacità visive dei modelli di diffusione in direzioni controllabili e comprensibili dall'essere umano. A differenza dei metodi di controllo esistenti che richiedono all'utente di specificare attributi per ciascuna direzione di modifica individualmente, SliderSpace scopre contemporaneamente diverse direzioni interpretabili e diverse da un singolo prompt di testo. Ogni direzione è addestrata come un adattatore a basso rango, consentendo un controllo composito e la scoperta di possibilità sorprendenti nello spazio latente del modello. Attraverso ampi esperimenti su modelli di diffusione all'avanguardia, dimostriamo l'efficacia di SliderSpace in tre applicazioni: decomposizione concettuale, esplorazione dello stile artistico e potenziamento della diversità. La nostra valutazione quantitativa mostra che le direzioni scoperte da SliderSpace decompongono efficacemente la struttura visiva della conoscenza del modello, offrendo approfondimenti sulle capacità latenti codificate all'interno dei modelli di diffusione. Studi condotti con gli utenti convalidano ulteriormente che il nostro metodo produce variazioni più diverse e utili rispetto alle baselines. Il nostro codice, i dati e i pesi addestrati sono disponibili su https://sliderspace.baulab.info
English
We present SliderSpace, a framework for automatically decomposing the visual capabilities of diffusion models into controllable and human-understandable directions. Unlike existing control methods that require a user to specify attributes for each edit direction individually, SliderSpace discovers multiple interpretable and diverse directions simultaneously from a single text prompt. Each direction is trained as a low-rank adaptor, enabling compositional control and the discovery of surprising possibilities in the model's latent space. Through extensive experiments on state-of-the-art diffusion models, we demonstrate SliderSpace's effectiveness across three applications: concept decomposition, artistic style exploration, and diversity enhancement. Our quantitative evaluation shows that SliderSpace-discovered directions decompose the visual structure of model's knowledge effectively, offering insights into the latent capabilities encoded within diffusion models. User studies further validate that our method produces more diverse and useful variations compared to baselines. Our code, data and trained weights are available at https://sliderspace.baulab.info

Summary

AI-Generated Summary

PDF258February 4, 2025