París: Un modelo de difusión de pesos abiertos entrenado de manera descentralizada
Paris: A Decentralized Trained Open-Weight Diffusion Model
October 3, 2025
Autores: Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy
cs.AI
Resumen
Presentamos a Paris, el primer modelo de difusión preentrenado y liberado públicamente que ha sido entrenado completamente mediante computación descentralizada. Paris demuestra que es posible lograr una generación de imágenes a partir de texto de alta calidad sin necesidad de una infraestructura coordinada centralmente. Paris está disponible para uso tanto en investigación como comercial. El desarrollo de Paris requirió la implementación desde cero de nuestro marco de Entrenamiento de Difusión Distribuido. El modelo consta de 8 modelos de difusión expertos (cada uno con 129M a 605M parámetros) entrenados en completo aislamiento, sin sincronización de gradientes, parámetros o activaciones intermedias. En lugar de requerir actualizaciones de gradientes sincronizadas a través de miles de GPUs, particionamos los datos en clusters semánticamente coherentes, donde cada experto optimiza de manera independiente su subconjunto mientras se aproxima colectivamente a la distribución completa. Un enrutador ligero basado en transformadores selecciona dinámicamente a los expertos apropiados durante la inferencia, logrando una calidad de generación comparable a los baselines coordinados centralmente. La eliminación de la sincronización permite el entrenamiento en hardware heterogéneo sin interconexiones especializadas. La validación empírica confirma que el entrenamiento descentralizado de Paris mantiene la calidad de generación mientras elimina la necesidad de un clúster dedicado de GPUs para modelos de difusión a gran escala. Paris logra esto utilizando 14 veces menos datos de entrenamiento y 16 veces menos capacidad de cómputo que el baseline descentralizado anterior.
English
We present Paris, the first publicly released diffusion model pre-trained
entirely through decentralized computation. Paris demonstrates that
high-quality text-to-image generation can be achieved without centrally
coordinated infrastructure. Paris is open for research and commercial use.
Paris required implementing our Distributed Diffusion Training framework from
scratch. The model consists of 8 expert diffusion models (129M-605M parameters
each) trained in complete isolation with no gradient, parameter, or
intermediate activation synchronization. Rather than requiring synchronized
gradient updates across thousands of GPUs, we partition data into semantically
coherent clusters where each expert independently optimizes its subset while
collectively approximating the full distribution. A lightweight transformer
router dynamically selects appropriate experts at inference, achieving
generation quality comparable to centrally coordinated baselines. Eliminating
synchronization enables training on heterogeneous hardware without specialized
interconnects. Empirical validation confirms that Paris's decentralized
training maintains generation quality while removing the dedicated GPU cluster
requirement for large-scale diffusion models. Paris achieves this using
14times less training data and 16times less compute than the prior
decentralized baseline.