ChatPaper.aiChatPaper

환상적인 사전 학습 최적화 알고리즘과 그 발견의 여정

Fantastic Pretraining Optimizers and Where to Find Them

September 2, 2025
저자: Kaiyue Wen, David Hall, Tengyu Ma, Percy Liang
cs.AI

초록

AdamW는 오랫동안 언어 모델 사전 학습에서 지배적인 최적화 도구로 자리 잡아왔으며, 다른 최적화 도구들이 1.4배에서 2배의 속도 향상을 제공한다는 수많은 주장에도 불구하고 그 자리를 유지해왔다. 우리는 두 가지 방법론적 결함이 공정한 비교를 가리고 실제 적용을 방해했다고 주장한다: (i) 불균등한 하이퍼파라미터 조정과 (ii) 제한적이거나 오해의 소지가 있는 평가 설정. 이 두 가지 문제를 해결하기 위해, 우리는 네 가지 모델 규모(0.1B-1.2B 매개변수)와 데이터 대 모델 비율(Chinchilla 최적치의 1-8배)에 걸쳐 10개의 딥러닝 최적화 도구를 체계적으로 연구했다. 우리는 공정하고 유익한 비교를 위해서는 엄격한 하이퍼파라미터 조정과 다양한 모델 규모 및 데이터 대 모델 비율에 걸친 평가가 필요하며, 이는 훈련 종료 시점에 수행되어야 한다는 것을 발견했다. 첫째, 한 최적화 도구에 대한 최적의 하이퍼파라미터가 다른 최적화 도구에서는 최적이 아닐 수 있어, 무분별한 하이퍼파라미터 이전은 공정하지 않다. 둘째, 잘 조정된 기준선에 비해 많은 제안된 최적화 도구의 실제 속도 향상은 주장된 것보다 낮으며, 모델 크기가 커질수록 1.2B 매개변수 모델에서는 단 1.1배로 감소한다. 셋째, 목표 훈련 예산에 도달하기 전의 중간 체크포인트를 비교하는 것은 오해의 소지가 있을 수 있으며, 두 최적화 도구 간의 순위는 학습률 감소로 인해 훈련 중에 뒤집힐 수 있다. 우리의 철저한 조사를 통해, Muon과 Soap와 같은 가장 빠른 최적화 도구들은 모두 행렬을 사전 조건자로 사용한다는 것을 발견했다. 즉, 기울기에 스칼라가 아닌 행렬을 곱하는 방식이다. 그러나 행렬 기반 최적화 도구의 속도 향상은 모델 규모에 반비례하여, 0.1B 매개변수 모델에서는 AdamW 대비 1.4배에서 1.2B 매개변수 모델에서는 단 1.1배로 감소한다.
English
AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.
PDF101September 3, 2025