ChatPaper.aiChatPaper

Como Dimensionar Sua EMA

How to Scale Your EMA

July 25, 2023
Autores: Dan Busbridge, Jason Ramapuram, Pierre Ablin, Tatiana Likhomanenko, Eeshan Gunesh Dhekane, Xavier Suau, Russ Webb
cs.AI

Resumo

Preservar a dinâmica de treinamento em diferentes tamanhos de lotes é uma ferramenta importante para o aprendizado de máquina prático, pois permite a troca entre o tamanho do lote e o tempo de execução. Essa troca é tipicamente habilitada por uma regra de escalonamento; por exemplo, no gradiente descendente estocástico, deve-se escalar a taxa de aprendizado linearmente com o tamanho do lote. Outra ferramenta importante para o aprendizado de máquina prático é a Média Móvel Exponencial (EMA, do inglês Exponential Moving Average) do modelo, que é uma cópia do modelo que não recebe informações de gradiente, mas segue seu modelo alvo com algum momento. Essa EMA do modelo pode melhorar a robustez e as propriedades de generalização do aprendizado supervisionado, estabilizar a pseudo-rotulagem e fornecer um sinal de aprendizado para o Aprendizado Auto-Supervisionado (SSL, do inglês Self-Supervised Learning). Trabalhos anteriores trataram a EMA do modelo separadamente da otimização, levando a diferentes dinâmicas de treinamento em diferentes tamanhos de lotes e a um desempenho inferior do modelo. Neste trabalho, fornecemos uma regra de escalonamento para otimização na presença de EMAs de modelo e demonstramos sua validade em uma variedade de arquiteturas, otimizadores e modalidades de dados. Também mostramos a validade da regra quando a EMA do modelo contribui para a otimização do modelo alvo, permitindo-nos treinar métodos de pseudo-rotulagem e SSL baseados em EMA em tamanhos de lote pequenos e grandes. Para SSL, permitimos o treinamento de BYOL até o tamanho de lote de 24.576 sem sacrificar o desempenho, resultando em uma redução ideal de 6 vezes no tempo de execução.
English
Preserving training dynamics across batch sizes is an important tool for practical machine learning as it enables the trade-off between batch size and wall-clock time. This trade-off is typically enabled by a scaling rule, for example, in stochastic gradient descent, one should scale the learning rate linearly with the batch size. Another important tool for practical machine learning is the model Exponential Moving Average (EMA), which is a model copy that does not receive gradient information, but instead follows its target model with some momentum. This model EMA can improve the robustness and generalization properties of supervised learning, stabilize pseudo-labeling, and provide a learning signal for Self-Supervised Learning (SSL). Prior works have treated the model EMA separately from optimization, leading to different training dynamics across batch sizes and lower model performance. In this work, we provide a scaling rule for optimization in the presence of model EMAs and demonstrate its validity across a range of architectures, optimizers, and data modalities. We also show the rule's validity where the model EMA contributes to the optimization of the target model, enabling us to train EMA-based pseudo-labeling and SSL methods at small and large batch sizes. For SSL, we enable training of BYOL up to batch size 24,576 without sacrificing performance, optimally a 6times wall-clock time reduction.
PDF94February 8, 2026