ComboStoc : Stochasticité Combinatoire pour les Modèles Génératifs à Diffusion
ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models
April 29, 2026
Auteurs: Rui Xu, Jiepeng Wang, Hao Pan, Yang Liu, Xin Tong, Shiqing Xin, Changhe Tu, Taku Komura, Wenping Wang
cs.AI
Résumé
Dans cet article, nous étudions un facteur peu exploré mais important des modèles génératifs à diffusion : la complexité combinatoire. Les échantillons de données sont généralement de haute dimension, et pour diverses tâches de génération structurée, des attributs supplémentaires sont combinés pour être associés aux échantillons de données. Nous montrons que l'espace engendré par la combinaison des dimensions et des attributs peut être insuffisamment couvert par les schémas d'entraînement existants des modèles génératifs à diffusion, ce qui limite potentiellement les performances au moment du test. Nous proposons une solution simple à ce problème en construisant des processus stochastiques qui exploitent pleinement les structures combinatoires, d'où le nom ComboStoc. En utilisant cette stratégie simple, nous montrons que l'entraînement du réseau est considérablement accéléré pour diverses modalités de données, y compris les images et les formes structurelles 3D. De plus, ComboStoc permet une nouvelle méthode de génération au moment du test qui utilise des pas de temps asynchrones pour différentes dimensions et attributs, permettant ainsi des degrés de contrôle variables sur ceux-ci. Notre code est disponible à l'adresse : https://github.com/Xrvitd/ComboStoc
English
In this paper, we study an under-explored but important factor of diffusion generative models, i.e., the combinatorial complexity. Data samples are generally high-dimensional, and for various structured generation tasks, additional attributes are combined to associate with data samples. We show that the space spanned by the combination of dimensions and attributes can be insufficiently covered by existing training schemes of diffusion generative models, potentially limiting test time performance. We present a simple fix to this problem by constructing stochastic processes that fully exploit the combinatorial structures, hence the name ComboStoc. Using this simple strategy, we show that network training is significantly accelerated across diverse data modalities, including images and 3D structured shapes. Moreover, ComboStoc enables a new way of test time generation which uses asynchronous time steps for different dimensions and attributes, thus allowing for varying degrees of control over them. Our code is available at: https://github.com/Xrvitd/ComboStoc