ChatPaper.aiChatPaper

Dreiphasentransformator

Three-Phase Transformer

April 15, 2026
Autoren: Mohammad R. Abu Ayyash
cs.AI

Zusammenfassung

Wir stellen Three-Phase Transformer (3PT) vor, einen Residual-Stream-Strukturprior für Decoder-Only-Transformer auf einer standardmäßigen SwiGLU + RMSNorm + RoPE + GQA-Architektur. Der versteckte Vektor wird in N gleich große zyklische Kanäle partitioniert, die jeweils durch phasenrespektierende Operationen aufrechterhalten werden: eine RMSNorm pro Kanal, eine 2D-Givens-Rotation zwischen Attention und FFN, die jeden Kanal um Theta + i*(2*pi/N) rotiert, und eine Nebenbedingung für die Anzahl der Köpfe, die GQA-Köpfe mit der Partitionierung in Einklang bringt. Die Architektur ist ein selbststabilisierendes Gleichgewicht zwischen Verschleierung und Wiederherstellung, kein aufgesetztes Modul. Die Partitionierung schafft einen eindimensionalen DC-Unterraum, der orthogonal zu den Kanälen verläuft, in den wir ein festes Gabriel's-Horn-Profil r(p) = 1/(p+1) als absoluten Positions-Side-Channel injizieren, der sich orthogonal mit der relativen Positionsrotation von RoPE zusammensetzt. Die kanonische Wahl N=3 entlehnt ihre Metapher dem ausgeglichenen Drehstrom, bei dem drei um 120 Grad phasenverschobene Sinusschwingungen zu Null summieren, ohne antikorrelierte Paare. Bei 123M Parametern auf WikiText-103 erreicht 3PT eine um -7,20 % reduzierte Perplexität (-2,62 % Bits-per-Byte) gegenüber einer angepassten RoPE-Only-Baseline bei +1.536 Parametern (0,00124 % der Gesamtmenge), mit einer 1,93-fachen Beschleunigung der Konvergenzschrittzahl (1,64-fache Echtzeitbeschleunigung). N verhält sich eher als ein Parameter-Sharing-Regler als ein eindeutiges Optimum: Bei 5,5M Parametern verläuft ein N-Sweep über {1,2,3,4,6,8,12} nahezu monoton mit N=1 als Sieger; bei 123M Parametern sind in einem Sweep über drei Seeds N=3 und N=1 statistisch nicht unterscheidbar. Die tragenden Mechanismen sind der kanalpartitionierte Residual Stream, die Rotation pro Block, die Normalisierung pro Phase und die Horn-DC-Injektion. Wir charakterisieren (a) die Selbststabilisierung der Geometrie ohne explizite Erzwingung, eine neuartige Instanz des Erhaltungssatz-Rahmenwerks für neuronale Netze; (b) ein u-förmiges Tiefenprofil der Rotationswinkeldrift bei 12 Schichten; (c) die orthogonale Zusammensetzung mit RoPE, Attention und FFN.
English
We present Three-Phase Transformer (3PT), a residual-stream structural prior for decoder-only Transformers on a standard SwiGLU + RMSNorm + RoPE + GQA backbone. The hidden vector is partitioned into N equally-sized cyclic channels, each maintained by phase-respecting ops: a per-channel RMSNorm, a 2D Givens rotation between attention and FFN that rotates each channel by theta + i*(2*pi/N), and a head-count constraint aligning GQA heads with the partition. The architecture is a self-stabilizing equilibrium between scrambling and re-imposition, not a bolted-on module. The partition carves out a one-dimensional DC subspace orthogonal to the channels, into which we inject a fixed Gabriel's horn profile r(p) = 1/(p+1) as an absolute-position side-channel composing orthogonally with RoPE's relative-position rotation. The canonical N=3 borrows its metaphor from balanced three-phase AC, where three sinusoids 120 degrees apart sum to zero with no anti-correlated pair. At 123M parameters on WikiText-103, 3PT achieves -7.20% perplexity (-2.62% bits-per-byte) over a matched RoPE-Only baseline at +1,536 parameters (0.00124% of total), with 1.93x step-count convergence speedup (1.64x wall-clock). N behaves as a parameter-sharing knob rather than a unique optimum: at 5.5M an N-sweep over {1,2,3,4,6,8,12} is near-monotone with N=1 winning; at 123M a three-seed sweep finds N=3 and N=1 statistically indistinguishable. The load-bearing mechanism is the channel-partitioned residual stream, per-block rotation, per-phase normalization, and horn DC injection. We characterize (a) self-stabilization of the geometry without explicit enforcement, a novel instance of the conservation-law framework for neural networks; (b) a U-shaped depth profile of rotation-angle drift at 12 layers; (c) orthogonal composition with RoPE, attention, and FFN.
PDF14April 18, 2026