Driefasentransformator

Samenvatting

Wij presenteren Three-Phase Transformer (3PT), een structurele prior voor het residual-stream in decoder-only Transformers, gebouwd op een standaard SwiGLU + RMSNorm + RoPE + GQA backbone. De verborgen vector wordt opgedeeld in N even grote cyclische kanalen, elk onderhouden door fase-respecterende operaties: een per-kanaal RMSNorm, een 2D Givens-rotatie tussen aandacht en FFN die elk kanaal roteert met theta + i*(2*pi/N), en een hoofdental-beperking die GQA-hoofden uitlijnt met de partitie. De architectuur is een zelfstabiliserend evenwicht tussen scrambling en herinvoering, geen opgeplakt module. De partitie creëert een eendimensionale DC-deelruimte loodrecht op de kanalen, waarin we een vast Gabrielhoorn-profiel r(p) = 1/(p+1) injecteren als een absoluut-positie zijkanaal dat orthogonaal samenstelt met RoPE's relatieve-positie rotatie. De canonieke N=3 ontleent zijn metafoor aan gebalanceerde driefasige wisselstroom, waar drie sinusoiden 120 graden uit fase optellen tot nul zonder anti-gecorreleerd paar. Met 123M parameters op WikiText-103 behaalt 3PT een perplexiteit van -7,20% (-2,62% bits-per-byte) ten opzichte van een gematchte RoPE-Only baseline bij +1.536 parameters (0,00124% van het totaal), met een 1,93x convergentiesnelheid in stappen (1,64x wall-clock). N gedraagt zich als een parameter-delende knop in plaats van een uniek optimum: bij 5,5M is een N-sweep over {1,2,3,4,6,8,12} bijna monotoon met N=1 als winnaar; bij 123M vindt een sweep over drie seeds N=3 en N=1 statistisch ononderscheidbaar. Het dragende mechanisme is de gekanaliseerde residual stream, per-blok rotatie, per-fase normalisatie, en hoorn-DC-injectie. Wij karakteriseren (a) zelfstabilisatie van de geometrie zonder expliciete handhaving, een nieuw geval van het behoudswet-framework voor neurale netwerken; (b) een U-vormig diepteprofiel van rotatiehoek-drift bij 12 lagen; (c) orthogonale compositie met RoPE, aandacht, en FFN.

English

We present Three-Phase Transformer (3PT), a residual-stream structural prior for decoder-only Transformers on a standard SwiGLU + RMSNorm + RoPE + GQA backbone. The hidden vector is partitioned into N equally-sized cyclic channels, each maintained by phase-respecting ops: a per-channel RMSNorm, a 2D Givens rotation between attention and FFN that rotates each channel by theta + i*(2*pi/N), and a head-count constraint aligning GQA heads with the partition. The architecture is a self-stabilizing equilibrium between scrambling and re-imposition, not a bolted-on module. The partition carves out a one-dimensional DC subspace orthogonal to the channels, into which we inject a fixed Gabriel's horn profile r(p) = 1/(p+1) as an absolute-position side-channel composing orthogonally with RoPE's relative-position rotation. The canonical N=3 borrows its metaphor from balanced three-phase AC, where three sinusoids 120 degrees apart sum to zero with no anti-correlated pair. At 123M parameters on WikiText-103, 3PT achieves -7.20% perplexity (-2.62% bits-per-byte) over a matched RoPE-Only baseline at +1,536 parameters (0.00124% of total), with 1.93x step-count convergence speedup (1.64x wall-clock). N behaves as a parameter-sharing knob rather than a unique optimum: at 5.5M an N-sweep over {1,2,3,4,6,8,12} is near-monotone with N=1 winning; at 123M a three-seed sweep finds N=3 and N=1 statistically indistinguishable. The load-bearing mechanism is the channel-partitioned residual stream, per-block rotation, per-phase normalization, and horn DC injection. We characterize (a) self-stabilization of the geometry without explicit enforcement, a novel instance of the conservation-law framework for neural networks; (b) a U-shaped depth profile of rotation-angle drift at 12 layers; (c) orthogonal composition with RoPE, attention, and FFN.