Sobre o Mecanismo e a Dinâmica da Adição Modular: Características de Fourier, Bilhete Premiado e Grokking

Resumo

Apresentamos uma análise abrangente de como redes neurais de duas camadas aprendem características para resolver a tarefa de adição modular. Nosso trabalho fornece uma interpretação mecanicista completa do modelo aprendido e uma explicação teórica de sua dinâmica de treinamento. Embora trabalhos anteriores tenham identificado que neurônios individuais aprendem características de Fourier de frequência única e alinhamento de fase, isso não explica totalmente como essas características se combinam em uma solução global. Preenchemos essa lacuna formalizando uma condição de diversificação que emerge durante o treinamento quando a rede é superparametrizada, consistindo em duas partes: simetria de fase e diversificação de frequência. Provamos que essas propriedades permitem que a rede aproxime coletivamente uma função indicadora defeituosa da lógica correta para a tarefa de adição modular. Embora neurônios individuais produzam sinais ruidosos, a simetria de fase permite um esquema de votação majoritária que cancela o ruído, permitindo que a rede identifique robustamente a soma correta. Além disso, explicamos o surgimento dessas características sob inicialização aleatória por meio de um mecanismo de "bilhete premiado" (*lottery ticket*). Nossa análise do fluxo de gradiente prova que as frequências competem dentro de cada neurônio, com o "vencedor" determinado por sua magnitude espectral inicial e alinhamento de fase. Do ponto de vista técnico, fornecemos uma caracterização rigorosa da dinâmica de acoplamento de fase por camada e formalizamos o cenário competitivo usando o lema de comparação de EDOs. Finalmente, usamos essas percepções para desmistificar o *grokking*, caracterizando-o como um processo de três estágios envolvendo memorização seguida por duas fases de generalização, impulsionadas pela competição entre minimização da perda e decaimento de pesos (*weight decay*).

English

We present a comprehensive analysis of how two-layer neural networks learn features to solve the modular addition task. Our work provides a full mechanistic interpretation of the learned model and a theoretical explanation of its training dynamics. While prior work has identified that individual neurons learn single-frequency Fourier features and phase alignment, it does not fully explain how these features combine into a global solution. We bridge this gap by formalizing a diversification condition that emerges during training when overparametrized, consisting of two parts: phase symmetry and frequency diversification. We prove that these properties allow the network to collectively approximate a flawed indicator function on the correct logic for the modular addition task. While individual neurons produce noisy signals, the phase symmetry enables a majority-voting scheme that cancels out noise, allowing the network to robustly identify the correct sum. Furthermore, we explain the emergence of these features under random initialization via a lottery ticket mechanism. Our gradient flow analysis proves that frequencies compete within each neuron, with the "winner" determined by its initial spectral magnitude and phase alignment. From a technical standpoint, we provide a rigorous characterization of the layer-wise phase coupling dynamics and formalize the competitive landscape using the ODE comparison lemma. Finally, we use these insights to demystify grokking, characterizing it as a three-stage process involving memorization followed by two generalization phases, driven by the competition between loss minimization and weight decay.

Sobre o Mecanismo e a Dinâmica da Adição Modular: Características de Fourier, Bilhete Premiado e Grokking

On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking

Resumo

Support