ComboStoc: Combinatorische Stochastiek voor Diffusie Generatieve Modellen

Samenvatting

In dit artikel onderzoeken we een onderbelichte maar belangrijke factor van diffusiegeneratieve modellen, namelijk de combinatorische complexiteit. Datamonsters zijn over het algemeen hoogdimensionaal, en voor diverse gestructureerde generatietaken worden aanvullende attributen gecombineerd om aan datamonsters te koppelen. Wij tonen aan dat de ruimte die wordt opgespannen door de combinatie van dimensies en attributen onvoldoende wordt gedekt door bestaande trainingsschema's van diffusiegeneratieve modellen, wat de prestaties tijdens de testfase mogelijk beperkt. Wij presenteren een eenvoudige oplossing voor dit probleem door stochastische processen te construeren die de combinatorische structuren volledig benutten, vandaar de naam ComboStoc. Met deze eenvoudige strategie tonen we aan dat netwerktraining aanzienlijk wordt versneld over diverse datamodaliteiten, waaronder afbeeldingen en gestructureerde 3D-vormen. Bovendien stelt ComboStoc een nieuwe manier van genereren tijdens de testfase in staat, waarbij asynchrone tijdstappen worden gebruikt voor verschillende dimensies en attributen, waardoor verschillende gradaties van controle over deze mogelijk worden. Onze code is beschikbaar op: https://github.com/Xrvitd/ComboStoc

English

In this paper, we study an under-explored but important factor of diffusion generative models, i.e., the combinatorial complexity. Data samples are generally high-dimensional, and for various structured generation tasks, additional attributes are combined to associate with data samples. We show that the space spanned by the combination of dimensions and attributes can be insufficiently covered by existing training schemes of diffusion generative models, potentially limiting test time performance. We present a simple fix to this problem by constructing stochastic processes that fully exploit the combinatorial structures, hence the name ComboStoc. Using this simple strategy, we show that network training is significantly accelerated across diverse data modalities, including images and 3D structured shapes. Moreover, ComboStoc enables a new way of test time generation which uses asynchronous time steps for different dimensions and attributes, thus allowing for varying degrees of control over them. Our code is available at: https://github.com/Xrvitd/ComboStoc

ComboStoc: Combinatorische Stochastiek voor Diffusie Generatieve Modellen

ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models

Samenvatting

Support