ChatPaper.aiChatPaper

DiPaCo: 분산 경로 구성

DiPaCo: Distributed Path Composition

March 15, 2024
저자: Arthur Douillard, Qixuan Feng, Andrei A. Rusu, Adhiguna Kuncoro, Yani Donchev, Rachita Chhaparia, Ionel Gog, Marc'Aurelio Ranzato, Jiajun Shen, Arthur Szlam
cs.AI

초록

머신러닝(ML)의 발전은 신경망 모델의 규모 확장에 의해 주도되어 왔습니다. 이러한 규모 확장은 병렬로 작동하는 장치 간의 고대역폭 통신을 필요로 하는 ML 접근법을 수용하기 위해 점점 더 대담한 엔지니어링 업적에 의해 가능해졌습니다. 본 연구에서는 ML 모델을 위한 공동 설계 모듈식 아키텍처와 훈련 접근법을 제안하며, 이를 DIstributed PAth COmposition(DiPaCo)라고 명명합니다. 훈련 과정에서 DiPaCo는 공유 모듈 집합을 통한 경로를 통해 계산을 분산합니다. Local-SGD에서 영감을 받은 최적화 기법(DiLoCo)과 함께, 이 접근법은 통신을 극적으로 줄이면서 모듈을 동기화 상태로 유지함으로써, 연결 상태가 좋지 않고 이질적인 작업자 간의 훈련을 용이하게 합니다. 또한 작업자 장애와 선점에 대한 견고성을 보장하는 설계를 갖추고 있습니다. 추론 시에는 각 입력에 대해 단일 경로만 실행하면 되며, 모델 압축이 필요하지 않습니다. 우리는 이 접근법을 덜 동기적이고 더 모듈화된 대규모 학습 패러다임을 향한 첫 번째 프로토타입으로 간주합니다. 널리 사용되는 C4 벤치마크에서의 실험 결과, 동일한 훈련 스텝 수이지만 더 짧은 실제 시간 동안, DiPaCo는 1억 5천만 개의 매개변수를 가진 256개의 가능한 경로 중 하나를 선택함으로써 10억 개의 매개변수를 가진 밀집 트랜스포머 언어 모델의 성능을 능가하는 것으로 나타났습니다.
English
Progress in machine learning (ML) has been fueled by scaling neural network models. This scaling has been enabled by ever more heroic feats of engineering, necessary for accommodating ML approaches that require high bandwidth communication between devices working in parallel. In this work, we propose a co-designed modular architecture and training approach for ML models, dubbed DIstributed PAth COmposition (DiPaCo). During training, DiPaCo distributes computation by paths through a set of shared modules. Together with a Local-SGD inspired optimization (DiLoCo) that keeps modules in sync with drastically reduced communication, Our approach facilitates training across poorly connected and heterogeneous workers, with a design that ensures robustness to worker failures and preemptions. At inference time, only a single path needs to be executed for each input, without the need for any model compression. We consider this approach as a first prototype towards a new paradigm of large-scale learning, one that is less synchronous and more modular. Our experiments on the widely used C4 benchmark show that, for the same amount of training steps but less wall-clock time, DiPaCo exceeds the performance of a 1 billion-parameter dense transformer language model by choosing one of 256 possible paths, each with a size of 150 million parameters.

Summary

AI-Generated Summary

PDF131December 15, 2024