ChatPaper.aiChatPaper

ComboStoc: Estocasticidad Combinatoria para Modelos Generativos de Difusión

ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models

April 29, 2026
Autores: Rui Xu, Jiepeng Wang, Hao Pan, Yang Liu, Xin Tong, Shiqing Xin, Changhe Tu, Taku Komura, Wenping Wang
cs.AI

Resumen

En este artículo, estudiamos un factor poco explorado pero importante de los modelos generativos de difusión: la complejidad combinatoria. Las muestras de datos son generalmente de alta dimensión, y para diversas tareas de generación estructurada, se combinan atributos adicionales que se asocian con las muestras de datos. Demostramos que el espacio abarcado por la combinación de dimensiones y atributos puede estar insuficientemente cubierto por los esquemas de entrenamiento existentes de los modelos generativos de difusión, lo que potencialmente limita el rendimiento en tiempo de prueba. Presentamos una solución simple a este problema mediante la construcción de procesos estocásticos que aprovechan plenamente las estructuras combinatorias, de ahí el nombre ComboStoc. Utilizando esta estrategia simple, mostramos que el entrenamiento de la red se acelera significativamente en diversas modalidades de datos, incluyendo imágenes y formas estructuradas 3D. Además, ComboStoc permite una nueva forma de generación en tiempo de prueba que utiliza pasos de tiempo asíncronos para diferentes dimensiones y atributos, permitiendo así distintos grados de control sobre ellos. Nuestro código está disponible en: https://github.com/Xrvitd/ComboStoc
English
In this paper, we study an under-explored but important factor of diffusion generative models, i.e., the combinatorial complexity. Data samples are generally high-dimensional, and for various structured generation tasks, additional attributes are combined to associate with data samples. We show that the space spanned by the combination of dimensions and attributes can be insufficiently covered by existing training schemes of diffusion generative models, potentially limiting test time performance. We present a simple fix to this problem by constructing stochastic processes that fully exploit the combinatorial structures, hence the name ComboStoc. Using this simple strategy, we show that network training is significantly accelerated across diverse data modalities, including images and 3D structured shapes. Moreover, ComboStoc enables a new way of test time generation which uses asynchronous time steps for different dimensions and attributes, thus allowing for varying degrees of control over them. Our code is available at: https://github.com/Xrvitd/ComboStoc
PDF81May 6, 2026