ChatPaper.aiChatPaper

Sobre el Mecanismo y la Dinámica de la Suma Modular: Características de Fourier, Billetes de Lotería y Grokking

On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking

February 18, 2026
Autores: Jianliang He, Leda Wang, Siyu Chen, Zhuoran Yang
cs.AI

Resumen

Presentamos un análisis exhaustivo de cómo las redes neuronales de dos capas aprenden características para resolver la tarea de suma modular. Nuestro trabajo proporciona una interpretación mecanicista completa del modelo aprendido y una explicación teórica de su dinámica de entrenamiento. Si bien trabajos previos han identificado que las neuronas individuales aprenden características de Fourier de frecuencia única y alineación de fase, no explican completamente cómo estas características se combinan en una solución global. Cerramos esta brecha formalizando una condición de diversificación que emerge durante el entrenamiento cuando hay sobreparametrización, consistente en dos partes: simetría de fase y diversificación de frecuencias. Demostramos que estas propiedades permiten a la red aproximar colectivamente una función indicadora defectuosa de la lógica correcta para la tarea de suma modular. Aunque las neuronas individuales producen señales ruidosas, la simetría de fase permite un esquema de votación por mayoría que cancela el ruido, permitiendo a la red identificar robustamente la suma correcta. Además, explicamos la emergencia de estas características bajo inicialización aleatoria mediante un mecanismo de "boleto ganador" (lottery ticket). Nuestro análisis del flujo de gradiente demuestra que las frecuencias compiten dentro de cada neurona, determinándose el "ganador" por su magnitud espectral inicial y su alineación de fase. Desde un punto de vista técnico, proporcionamos una caracterización rigurosa de la dinámica de acoplamiento de fases por capas y formalizamos el panorama competitivo utilizando el lema de comparación de EDOs. Finalmente, utilizamos estas ideas para desmitificar el "grokking", caracterizándolo como un proceso de tres etapas que implica memorización seguida de dos fases de generalización, impulsado por la competencia entre la minimización de la pérdida y la decadencia de pesos (weight decay).
English
We present a comprehensive analysis of how two-layer neural networks learn features to solve the modular addition task. Our work provides a full mechanistic interpretation of the learned model and a theoretical explanation of its training dynamics. While prior work has identified that individual neurons learn single-frequency Fourier features and phase alignment, it does not fully explain how these features combine into a global solution. We bridge this gap by formalizing a diversification condition that emerges during training when overparametrized, consisting of two parts: phase symmetry and frequency diversification. We prove that these properties allow the network to collectively approximate a flawed indicator function on the correct logic for the modular addition task. While individual neurons produce noisy signals, the phase symmetry enables a majority-voting scheme that cancels out noise, allowing the network to robustly identify the correct sum. Furthermore, we explain the emergence of these features under random initialization via a lottery ticket mechanism. Our gradient flow analysis proves that frequencies compete within each neuron, with the "winner" determined by its initial spectral magnitude and phase alignment. From a technical standpoint, we provide a rigorous characterization of the layer-wise phase coupling dynamics and formalize the competitive landscape using the ODE comparison lemma. Finally, we use these insights to demystify grokking, characterizing it as a three-stage process involving memorization followed by two generalization phases, driven by the competition between loss minimization and weight decay.
PDF31February 21, 2026