이상치를 넘어서: 양자화 조건에서의 최적화 알고리즘 연구
Beyond Outliers: A Study of Optimizers Under Quantization
September 27, 2025
저자: Georgios Vlassis, Saleh Ashkboos, Alexandra Volkova, Torsten Hoefler, Dan Alistarh
cs.AI
초록
새로운 최적화 기법들이 주목받고 모델 양자화가 효율적인 배포를 위한 표준으로 자리 잡으면서, 한 가지 핵심적인 질문이 제기됩니다: 양자화가 적용된 상황에서 최적화 기법의 선택이 모델 성능에 어떤 영향을 미치는가? 두 분야 모두에서 진전이 있었음에도 불구하고, 최적화 기법과 양자화 간의 상호작용에 대한 체계적인 증거는 여전히 제한적입니다. 이러한 공백을 메우기 위해, 우리는 양자화 하에서의 모델 견고성에 대한 최적화 기법 선택의 영향을 연구하며, 학습 후 양자화(PTQ)와 양자화 인지 학습(QAT) 모두를 고려합니다. 먼저, 50M에서 1.5B 파라미터에 이르는 정밀도 모델을 여섯 가지 최적화 기법으로 학습시켜 하이퍼파라미터 공간을 탐색하고 잘 조정된 기준선을 확립합니다. 그런 다음 PTQ를 적용하여 다양한 최적화 기법으로 학습된 모델의 성능 저하를 평가합니다. 우리는 최대-대-평균 비율(MMR)과 첨도와 같은 이상치 관련 메트릭들이 서로 다른 최적화 기법들 간의 PTQ 성능을 예측하는 데 실패한다는 것을 발견했습니다. 이를 분석적으로 보여주며, MMR이 단순히 고립된 계층의 오류만을 포착하고 양자화 오류가 네트워크를 통해 누적되고 전파되는 방식을 무시하기 때문임을 밝힙니다. QAT 성능 저하를 연구하기 위해, 양자화된 모델을 처음부터 학습시키고 이를 원래 정밀도의 기준선과 비교합니다. 우리는 원래의 사전 학습 설정에서 잘 수행되었던 최적화 기법들이 QAT 하에서도 최적을 유지하지 못할 수 있으며, Shampoo로 학습된 모델이 가장 낮은 정확도 저하를 보인다는 것을 발견했습니다. 마지막으로, 다양한 최적화 기법 하에서의 양자화 인지 학습에 대한 스케일링 법칙을 도출하며, Shampoo가 테스트된 모든 최적화 기법 중 가장 높은 파라미터 효율성을 달성함을 보여줍니다.
English
As new optimizers gain traction and model quantization becomes standard for
efficient deployment, a key question arises: how does the choice of optimizer
affect model performance in the presence of quantization? Despite progress in
both areas, systematic evidence on optimizer-quantization interactions remains
limited. To fill this gap, we study the impact of optimizer choice on model
robustness under quantization, considering both post-training quantization
(PTQ), and quantization-aware training (QAT). We first train full-precision
models, ranging from 50M to 1.5B parameters, with six optimizers, to explore
the hyperparameter landscape, and establish well-tuned baselines. We then apply
PTQ to evaluate how model performance degrades when trained with different
optimizers. We find that outlier-related metrics, such as the max-to-mean ratio
(MMR) and Kurtosis, fail to predict the PTQ performance across different
optimizers. We show analytically that this is due to the MMR capturing only
isolated layer errors, while ignoring how quantization errors accumulate and
propagate through the network. To study the QAT degradation, we train quantized
models from scratch and compare them to our original-precision baselines. We
find that optimizers performing well in the original pretraining setup may not
remain optimal under QAT, and that models trained with Shampoo show the lowest
accuracy degradation. Finally, we derive scaling laws for quantization-aware
training under different optimizers, showing that Shampoo achieves the highest
parameter efficiency of all tested optimizers.