Trasformatore Trifase
Three-Phase Transformer
April 15, 2026
Autori: Mohammad R. Abu Ayyash
cs.AI
Abstract
Presentiamo Three-Phase Transformer (3PT), un priore strutturale per il flusso residuo (residual stream) in Transformer di tipo decoder-only, basato su un'architettura standard con SwiGLU, RMSNorm, RoPE e GQA. Il vettore latente è partizionato in N canali ciclici di uguale dimensione, ciascuno gestito da operazioni che rispettano la fase: una RMSNorm per canale, una rotazione di Givens 2D tra l'attenzione e la FFN che ruota ogni canale di un angolo theta + i*(2*pi/N), e un vincolo sul numero di teste che allinea le teste GQA con la partizione. L'architettura rappresenta un equilibrio auto-stabilizzante tra rimescolamento e re-imposizione, non un modulo aggiuntivo. La partizione delimita un sottospazio DC unidimensionale ortogonale ai canali, nel quale iniettiamo un profilo fisso a corno di Gabriele r(p) = 1/(p+1) come canale laterale per la posizione assoluta, che si combina ortogonalmente con la rotazione di posizione relativa di RoPE. La configurazione canonica con N=3 prende in prestito la metafora dal sistema trifase bilanciato in corrente alternata, dove tre sinusoidi sfasate di 120 gradi si sommano a zero senza alcuna coppia anticorrelata. Su WikiText-103, con 123M di parametri, 3PT raggiunge un -7.20% di perplexity (-2.62% di bits-per-byte) rispetto a un baseline RoPE-Only equivalente, con un incremento di soli +1.536 parametri (0.00124% del totale) e un'accelerazione della convergenza di 1.93x nel numero di step (1.64x in tempo reale). N si comporta come una manopola per la condivisione dei parametri piuttosto che un optimum unico: a 5.5M parametri, una scansione di N su {1,2,3,4,6,8,12} è quasi monotona con N=1 vincente; a 123M parametri, una scansione con tre seed rileva che N=3 e N=1 sono statisticamente indistinguibili. Il meccanismo portante è il flusso residuo partizionato per canale, la rotazione per blocco, la normalizzazione per fase e l'iniezione DC del corno. Caratterizziamo (a) l'auto-stabilizzazione della geometria senza imposizione esplicita, un nuovo esempio del quadro dei principi di conservazione per le reti neurali; (b) un profilo di profondità a U della deriva dell'angolo di rotazione a 12 strati; (c) la composizione ortogonale con RoPE, attenzione e FFN.
English
We present Three-Phase Transformer (3PT), a residual-stream structural prior for decoder-only Transformers on a standard SwiGLU + RMSNorm + RoPE + GQA backbone. The hidden vector is partitioned into N equally-sized cyclic channels, each maintained by phase-respecting ops: a per-channel RMSNorm, a 2D Givens rotation between attention and FFN that rotates each channel by theta + i*(2*pi/N), and a head-count constraint aligning GQA heads with the partition. The architecture is a self-stabilizing equilibrium between scrambling and re-imposition, not a bolted-on module. The partition carves out a one-dimensional DC subspace orthogonal to the channels, into which we inject a fixed Gabriel's horn profile r(p) = 1/(p+1) as an absolute-position side-channel composing orthogonally with RoPE's relative-position rotation. The canonical N=3 borrows its metaphor from balanced three-phase AC, where three sinusoids 120 degrees apart sum to zero with no anti-correlated pair. At 123M parameters on WikiText-103, 3PT achieves -7.20% perplexity (-2.62% bits-per-byte) over a matched RoPE-Only baseline at +1,536 parameters (0.00124% of total), with 1.93x step-count convergence speedup (1.64x wall-clock). N behaves as a parameter-sharing knob rather than a unique optimum: at 5.5M an N-sweep over {1,2,3,4,6,8,12} is near-monotone with N=1 winning; at 123M a three-seed sweep finds N=3 and N=1 statistically indistinguishable. The load-bearing mechanism is the channel-partitioned residual stream, per-block rotation, per-phase normalization, and horn DC injection. We characterize (a) self-stabilization of the geometry without explicit enforcement, a novel instance of the conservation-law framework for neural networks; (b) a U-shaped depth profile of rotation-angle drift at 12 layers; (c) orthogonal composition with RoPE, attention, and FFN.