ChatPaper.aiChatPaper

ComboStoc: Kombinatorische Stochastizität für Diffusionsgenerative Modelle

ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models

April 29, 2026
Autoren: Rui Xu, Jiepeng Wang, Hao Pan, Yang Liu, Xin Tong, Shiqing Xin, Changhe Tu, Taku Komura, Wenping Wang
cs.AI

Zusammenfassung

In dieser Arbeit untersuchen wir einen wenig erforschten, aber wichtigen Faktor von Diffusionsgeneratormodellen: die kombinatorische Komplexität. Datensamples sind im Allgemeinen hochdimensional, und für verschiedene strukturierte Generierungsaufgaben werden zusätzliche Attribute kombiniert, um sie mit den Datensamples zu verknüpfen. Wir zeigen, dass der Raum, der durch die Kombination von Dimensionen und Attributen aufgespannt wird, durch bestehende Trainingsschemata für Diffusionsgeneratormodelle unzureichend abgedeckt werden kann, was die Leistung zur Testzeit potenziell einschränkt. Wir präsentieren eine einfache Lösung für dieses Problem, indem wir stochastische Prozesse konstruieren, die die kombinatorischen Strukturen vollständig ausschöpfen, daher der Name ComboStoc. Durch diese einfache Strategie zeigen wir, dass das Netzwerktraining über verschiedene Datenmodalitäten hinweg, einschließlich Bildern und strukturierten 3D-Formen, erheblich beschleunigt wird. Darüber hinaus ermöglicht ComboStoc eine neue Art der Generierung zur Testzeit, die asynchrone Zeitschritte für verschiedene Dimensionen und Attribute verwendet und somit unterschiedlich starke Kontrolle über diese erlaubt. Unser Code ist verfügbar unter: https://github.com/Xrvitd/ComboStoc
English
In this paper, we study an under-explored but important factor of diffusion generative models, i.e., the combinatorial complexity. Data samples are generally high-dimensional, and for various structured generation tasks, additional attributes are combined to associate with data samples. We show that the space spanned by the combination of dimensions and attributes can be insufficiently covered by existing training schemes of diffusion generative models, potentially limiting test time performance. We present a simple fix to this problem by constructing stochastic processes that fully exploit the combinatorial structures, hence the name ComboStoc. Using this simple strategy, we show that network training is significantly accelerated across diverse data modalities, including images and 3D structured shapes. Moreover, ComboStoc enables a new way of test time generation which uses asynchronous time steps for different dimensions and attributes, thus allowing for varying degrees of control over them. Our code is available at: https://github.com/Xrvitd/ComboStoc
PDF81May 6, 2026