파리: 분산 학습된 오픈 가중치 확산 모델
Paris: A Decentralized Trained Open-Weight Diffusion Model
October 3, 2025
저자: Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy
cs.AI
초록
우리는 완전히 분산된 컴퓨팅을 통해 사전 학습된 최초의 공개 확산 모델인 Paris를 소개합니다. Paris는 중앙 집중식 인프라 없이도 고품질의 텍스트-이미지 생성을 달성할 수 있음을 입증합니다. Paris는 연구 및 상업적 사용을 위해 공개되었습니다. Paris를 구현하기 위해 우리는 분산 확산 학습 프레임워크를 처음부터 구축해야 했습니다. 이 모델은 8개의 전문 확산 모델(각각 129M-605M 파라미터)로 구성되어 있으며, 그레이디언트, 파라미터 또는 중간 활성화 동기화 없이 완전히 독립적으로 학습되었습니다. 수천 개의 GPU 간에 동기화된 그레이디언트 업데이트를 요구하는 대신, 데이터를 의미적으로 일관된 클러스터로 분할하여 각 전문가가 자신의 부분 집합을 독립적으로 최적화하면서 전체 분포를 근사하도록 했습니다. 경량 트랜스포머 라우터는 추론 시 적절한 전문가를 동적으로 선택하여 중앙 집중식 기준선과 비슷한 생성 품질을 달성합니다. 동기화를 제거함으로써 특수 상호 연결 없이도 이기종 하드웨어에서 학습이 가능합니다. 실증적 검증을 통해 Paris의 분산 학습이 대규모 확산 모델을 위한 전용 GPU 클러스터 요구 사항을 제거하면서도 생성 품질을 유지함을 확인했습니다. Paris는 이전의 분산 기준선보다 14배 적은 학습 데이터와 16배 적은 컴퓨팅 자원을 사용하여 이를 달성했습니다.
English
We present Paris, the first publicly released diffusion model pre-trained
entirely through decentralized computation. Paris demonstrates that
high-quality text-to-image generation can be achieved without centrally
coordinated infrastructure. Paris is open for research and commercial use.
Paris required implementing our Distributed Diffusion Training framework from
scratch. The model consists of 8 expert diffusion models (129M-605M parameters
each) trained in complete isolation with no gradient, parameter, or
intermediate activation synchronization. Rather than requiring synchronized
gradient updates across thousands of GPUs, we partition data into semantically
coherent clusters where each expert independently optimizes its subset while
collectively approximating the full distribution. A lightweight transformer
router dynamically selects appropriate experts at inference, achieving
generation quality comparable to centrally coordinated baselines. Eliminating
synchronization enables training on heterogeneous hardware without specialized
interconnects. Empirical validation confirms that Paris's decentralized
training maintains generation quality while removing the dedicated GPU cluster
requirement for large-scale diffusion models. Paris achieves this using
14times less training data and 16times less compute than the prior
decentralized baseline.