Desbloqueando o Aprendizado de Características em Redes Delta com Portas em Escala

Resumo

O treinamento e a escalabilidade de Grandes Modelos de Linguagem exigem enormes recursos computacionais, motivando tanto arquiteturas subquadráticas eficientes quanto métodos fundamentados de ajuste de hiperparâmetros. Embora a Maximal Update Parametrization (μP) tenha possibilitado a transferência zero-shot de hiperparâmetros para Transformers padrão, sua extensão para modelos lineares, particularmente aqueles com transições de estado estruturadas e arquiteturas complexas, permanece amplamente inexplorada. Propagando rigorosamente estimativas de tamanho de coordenadas através da passagem direta, mecanismos de portão e dinâmicas de estado recorrente, derivamos as regras de escalabilidade para a Gated Delta Network. Experimentos de pré-treinamento de modelos de linguagem confirmam que nossas configurações possibilitam a transferência estável da taxa de aprendizado entre larguras de modelo sob ambos AdamW e SGD, enquanto a parametrização padrão falha na transferência, validando a correção e a utilidade prática de nossa análise.

English

Training and scaling Large Language Models demand enormous computational resources, motivating both efficient sub-quadratic architectures and principled hyperparameter tuning methods. While the Maximal Update Parametrization (μP) has enabled zero-shot hyperparameter transfer for standard Transformers, its extension to linear models, particularly those with structured state transitions and complicated architectures, remains largely unexplored. By rigorously propagating coordinate-size estimates through the forward pass, gating mechanisms, and recurrent state dynamics, we derive the scaling rules for Gated Delta Network. Experiments on language-model pre-training confirm that our configurations enable stable learning-rate transfer across model widths under both AdamW and SGD, whereas standard parametrization fails to transfer, validating the correctness and practical utility of our analysis.