ChatPaper.aiChatPaper

Dinâmicas de Treinamento Impactam a Robustez da Quantização Pós-Treinamento

Training Dynamics Impact Post-Training Quantization Robustness

October 7, 2025
Autores: Albert Catalan-Tatjer, Niccolò Ajroldi, Jonas Geiping
cs.AI

Resumo

Embora a quantização pós-treinamento seja amplamente adotada para a implantação eficiente de grandes modelos de linguagem, os mecanismos subjacentes à robustez da quantização permanecem pouco claros. Realizamos uma análise abrangente da degradação da quantização em trajetórias de treinamento de modelos de linguagem de código aberto com até 32 bilhões de parâmetros e 15 trilhões de tokens de treinamento para avaliar com precisão a relação entre a dinâmica de treinamento e o desempenho da quantização. Nossa principal descoberta é que os erros de quantização em execuções de treinamento em grande escala são impulsionados por uma interação complexa entre a taxa de aprendizagem e outros hiperparâmetros de treinamento. Especificamente, uma vez que as taxas de aprendizagem decaem, a perda de validação e o erro de quantização divergem, em grande parte independentes da escala dos dados de treinamento. Para investigar intervenções na dinâmica de treinamento e identificar configurações específicas que podem modular favoravelmente a robustez da quantização, treinamos nossos próprios modelos em experimentos controlados com até 100 bilhões de tokens. Nossos resultados desafiam a suposição de que aumentar a escala do conjunto de dados compromete inerentemente a eficácia da quantização, demonstrando, em vez disso, que intervenções estratégicas nos hiperparâmetros de treinamento podem melhorar a qualidade da quantização em escala.
English
While post-training quantization is widely adopted for efficient deployment of large language models, the mechanisms underlying quantization robustness remain unclear. We conduct a comprehensive analysis of quantization degradation across open-source language model training trajectories up to 32B parameters and 15T training tokens to accurately assess the relationship between training dynamics and quantization performance. Our key finding is that quantization errors in large-scale training runs are driven by a complex interplay between learning rate and other training hyperparameters. Specifically, once learning rates decay, validation loss and quantization error diverge, largely independent of training data scale. To investigate interventions on the training dynamics and identify specific configurations that can modulate quantization robustness favorably, we train our own models in controlled experiments up to 100B tokens. Our results challenge the assumption that increasing dataset scale inherently compromises quantization effectiveness, demonstrating instead that strategic training hyperparameter interventions can improve quantization quality at scale.
PDF22October 8, 2025