París: Un modelo de difusión de pesos abiertos entrenado de manera descentralizada

Resumen

Presentamos a Paris, el primer modelo de difusión preentrenado y liberado públicamente que ha sido entrenado completamente mediante computación descentralizada. Paris demuestra que es posible lograr una generación de imágenes a partir de texto de alta calidad sin necesidad de una infraestructura coordinada centralmente. Paris está disponible para uso tanto en investigación como comercial. El desarrollo de Paris requirió la implementación desde cero de nuestro marco de Entrenamiento de Difusión Distribuido. El modelo consta de 8 modelos de difusión expertos (cada uno con 129M a 605M parámetros) entrenados en completo aislamiento, sin sincronización de gradientes, parámetros o activaciones intermedias. En lugar de requerir actualizaciones de gradientes sincronizadas a través de miles de GPUs, particionamos los datos en clusters semánticamente coherentes, donde cada experto optimiza de manera independiente su subconjunto mientras se aproxima colectivamente a la distribución completa. Un enrutador ligero basado en transformadores selecciona dinámicamente a los expertos apropiados durante la inferencia, logrando una calidad de generación comparable a los baselines coordinados centralmente. La eliminación de la sincronización permite el entrenamiento en hardware heterogéneo sin interconexiones especializadas. La validación empírica confirma que el entrenamiento descentralizado de Paris mantiene la calidad de generación mientras elimina la necesidad de un clúster dedicado de GPUs para modelos de difusión a gran escala. Paris logra esto utilizando 14 veces menos datos de entrenamiento y 16 veces menos capacidad de cómputo que el baseline descentralizado anterior.

English

We present Paris, the first publicly released diffusion model pre-trained entirely through decentralized computation. Paris demonstrates that high-quality text-to-image generation can be achieved without centrally coordinated infrastructure. Paris is open for research and commercial use. Paris required implementing our Distributed Diffusion Training framework from scratch. The model consists of 8 expert diffusion models (129M-605M parameters each) trained in complete isolation with no gradient, parameter, or intermediate activation synchronization. Rather than requiring synchronized gradient updates across thousands of GPUs, we partition data into semantically coherent clusters where each expert independently optimizes its subset while collectively approximating the full distribution. A lightweight transformer router dynamically selects appropriate experts at inference, achieving generation quality comparable to centrally coordinated baselines. Eliminating synchronization enables training on heterogeneous hardware without specialized interconnects. Empirical validation confirms that Paris's decentralized training maintains generation quality while removing the dedicated GPU cluster requirement for large-scale diffusion models. Paris achieves this using 14times less training data and 16times less compute than the prior decentralized baseline.

París: Un modelo de difusión de pesos abiertos entrenado de manera descentralizada

Paris: A Decentralized Trained Open-Weight Diffusion Model

Resumen

Support