ComboStoc: Комбинаторная стохастичность для диффузионных генеративных моделей
ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models
April 29, 2026
Авторы: Rui Xu, Jiepeng Wang, Hao Pan, Yang Liu, Xin Tong, Shiqing Xin, Changhe Tu, Taku Komura, Wenping Wang
cs.AI
Аннотация
В данной статье мы исследуем малоизученный, но важный фактор диффузионных генеративных моделей, а именно комбинаторную сложность. Выборочные данные, как правило, являются высокоразмерными, и для различных задач структурированной генерации дополнительные атрибуты комбинируются для ассоциации с выборками данных. Мы показываем, что пространство, охватываемое комбинацией измерений и атрибутов, может быть недостаточно покрыто существующими схемами обучения диффузионных генеративных моделей, что потенциально ограничивает производительность во время тестирования. Мы предлагаем простое решение этой проблемы путем построения стохастических процессов, которые полностью используют комбинаторные структуры, отсюда и название ComboStoc. Используя эту простую стратегию, мы демонстрируем значительное ускорение обучения сети в различных модальностях данных, включая изображения и структурированные 3D-формы. Более того, ComboStoc позволяет реализовать новый способ генерации во время тестирования, который использует асинхронные временные шаги для различных измерений и атрибутов, что позволяет осуществлять различную степень контроля над ними. Наш код доступен по адресу: https://github.com/Xrvitd/ComboStoc.
English
In this paper, we study an under-explored but important factor of diffusion generative models, i.e., the combinatorial complexity. Data samples are generally high-dimensional, and for various structured generation tasks, additional attributes are combined to associate with data samples. We show that the space spanned by the combination of dimensions and attributes can be insufficiently covered by existing training schemes of diffusion generative models, potentially limiting test time performance. We present a simple fix to this problem by constructing stochastic processes that fully exploit the combinatorial structures, hence the name ComboStoc. Using this simple strategy, we show that network training is significantly accelerated across diverse data modalities, including images and 3D structured shapes. Moreover, ComboStoc enables a new way of test time generation which uses asynchronous time steps for different dimensions and attributes, thus allowing for varying degrees of control over them. Our code is available at: https://github.com/Xrvitd/ComboStoc