Transformador Trifásico

Resumen

Presentamos Three-Phase Transformer (3PT), un *prior* estructural para el flujo residual en Transformers de solo decodificación, basado en una arquitectura estándar con SwiGLU + RMSNorm + RoPE + GQA. El vector oculto se divide en N canales cíclicos de igual tamaño, cada uno mantenido por operaciones que respetan la fase: una RMSNorm por canal, una rotación 2D de Givens entre la atención y la FFN que rota cada canal en theta + i*(2*pi/N), y una restricción en el número de cabezas que alinea las cabezas GQA con la partición. La arquitectura es un equilibrio autoestabilizante entre desorden y reimposición, no un módulo añadido. La partición define un subespacio unidimensional DC ortogonal a los canales, en el que inyectamos un perfil fijo de trompeta de Gabriel r(p) = 1/(p+1) como un canal lateral de posición absoluta que se compone ortogonalmente con la rotación de posición relativa de RoPE. La configuración canónica N=3 toma su metáfora de la corriente alterna trifásica balanceada, donde tres sinusoides separadas 120 grados suman cero sin ningún par anticorrelacionado. Con 123M de parámetros en WikiText-103, 3PT logra una reducción de perplexidad del -7.20% (-2.62% en bits por byte) respecto a una línea base RoPE-Only equivalente, con un costo de +1,536 parámetros (0.00124% del total) y una aceleración en la convergencia de 1.93x en número de pasos (1.64x en tiempo de ejecución). N actúa como un control de compartición de parámetros más que como un óptimo único: en un modelo de 5.5M, una exploración de N en {1,2,3,4,6,8,12} es casi monótona, ganando N=1; en uno de 123M, una exploración con tres semillas encuentra que N=3 y N=1 son estadísticamente indistinguibles. El mecanismo fundamental es el flujo residual particionado por canales, la rotación por bloque, la normalización por fase y la inyección DC de la trompeta. Caracterizamos (a) la autoestabilización de la geometría sin aplicación explícita, una instancia novedosa del marco de leyes de conservación para redes neuronales; (b) un perfil de profundidad en forma de U para la deriva del ángulo de rotación en 12 capas; (c) la composición ortogonal con RoPE, atención y FFN.

English

We present Three-Phase Transformer (3PT), a residual-stream structural prior for decoder-only Transformers on a standard SwiGLU + RMSNorm + RoPE + GQA backbone. The hidden vector is partitioned into N equally-sized cyclic channels, each maintained by phase-respecting ops: a per-channel RMSNorm, a 2D Givens rotation between attention and FFN that rotates each channel by theta + i*(2*pi/N), and a head-count constraint aligning GQA heads with the partition. The architecture is a self-stabilizing equilibrium between scrambling and re-imposition, not a bolted-on module. The partition carves out a one-dimensional DC subspace orthogonal to the channels, into which we inject a fixed Gabriel's horn profile r(p) = 1/(p+1) as an absolute-position side-channel composing orthogonally with RoPE's relative-position rotation. The canonical N=3 borrows its metaphor from balanced three-phase AC, where three sinusoids 120 degrees apart sum to zero with no anti-correlated pair. At 123M parameters on WikiText-103, 3PT achieves -7.20% perplexity (-2.62% bits-per-byte) over a matched RoPE-Only baseline at +1,536 parameters (0.00124% of total), with 1.93x step-count convergence speedup (1.64x wall-clock). N behaves as a parameter-sharing knob rather than a unique optimum: at 5.5M an N-sweep over {1,2,3,4,6,8,12} is near-monotone with N=1 winning; at 123M a three-seed sweep finds N=3 and N=1 statistically indistinguishable. The load-bearing mechanism is the channel-partitioned residual stream, per-block rotation, per-phase normalization, and horn DC injection. We characterize (a) self-stabilization of the geometry without explicit enforcement, a novel instance of the conservation-law framework for neural networks; (b) a U-shaped depth profile of rotation-angle drift at 12 layers; (c) orthogonal composition with RoPE, attention, and FFN.