三相変圧器
Three-Phase Transformer
April 15, 2026
著者: Mohammad R. Abu Ayyash
cs.AI
要旨
我々は、標準的なSwiGLU + RMSNorm + RoPE + GQAを基盤とするDecoder-Only型Transformer向けに、残差ストリーム構造の事前分布であるThree-Phase Transformer(3PT)を提案する。隠れベクトルはN個の等サイズの循環チャネルに分割され、各チャネルは位相を考慮した演算により維持される:チャネル毎のRMSNorm、注意機構とFFNの間で各チャネルをtheta + i*(2*pi/N)だけ回転させる2Dギヴンス回転、そしてGQAヘッドを分割構造に整合させるヘッド数制約である。このアーキテクチャは、スクランブリングと再適用の自己安定平衡状態であり、後付けのモジュールではない。分割によりチャネルに直交する一次元のDC部分空間が形成され、ここにガブリエルのホーンプロファイルr(p) = 1/(p+1)を固定値として注入する。これは絶対位置情報のサイドチャネルとして、RoPEの相対位置回転と直交的に合成される。標準設定N=3は、平衡三相交流の比喩に由来する。つまり、120度位相の異なる3つの正弦波は、反相の組を持つことなく和がゼロとなる。WikiText-103で123Mパラメータのモデルにおいて、3PTは対応するRoPE-Onlyベースラインに対して、+1,536パラメータ(総パラメータの0.00124%)の追加のみで、パープレキシティ-7.20%(ビット/バイト-2.62%)を達成し、ステップ数収束速度は1.93倍(実時間で1.64倍)向上した。Nは最適値ではなくパラメータ共有の調整ノブとして振る舞う:5.5Mパラメータでは{1,2,3,4,6,8,12}のNスイープでN=1が優位となるほぼ単調な結果であったが、123Mパラメータでは3シードでのスイープにおいてN=3とN=1は統計的に識別不能であった。荷重支持メカニズムは、チャネル分割された残差ストリーム、ブロック毎の回転、位相毎の正規化、およびホーンDC注入である。我々は以下の特性を明らかにした:(a) 幾何学構造の明示的強制なしでの自己安定化(ニューラルネットワークにおける保存則フレームワークの新たな事例)、(b) 12層における回転角ドリフトのU字型深度プロファイル、(c) RoPE、注意機構、FFNとの直交合成。
English
We present Three-Phase Transformer (3PT), a residual-stream structural prior for decoder-only Transformers on a standard SwiGLU + RMSNorm + RoPE + GQA backbone. The hidden vector is partitioned into N equally-sized cyclic channels, each maintained by phase-respecting ops: a per-channel RMSNorm, a 2D Givens rotation between attention and FFN that rotates each channel by theta + i*(2*pi/N), and a head-count constraint aligning GQA heads with the partition. The architecture is a self-stabilizing equilibrium between scrambling and re-imposition, not a bolted-on module. The partition carves out a one-dimensional DC subspace orthogonal to the channels, into which we inject a fixed Gabriel's horn profile r(p) = 1/(p+1) as an absolute-position side-channel composing orthogonally with RoPE's relative-position rotation. The canonical N=3 borrows its metaphor from balanced three-phase AC, where three sinusoids 120 degrees apart sum to zero with no anti-correlated pair. At 123M parameters on WikiText-103, 3PT achieves -7.20% perplexity (-2.62% bits-per-byte) over a matched RoPE-Only baseline at +1,536 parameters (0.00124% of total), with 1.93x step-count convergence speedup (1.64x wall-clock). N behaves as a parameter-sharing knob rather than a unique optimum: at 5.5M an N-sweep over {1,2,3,4,6,8,12} is near-monotone with N=1 winning; at 123M a three-seed sweep finds N=3 and N=1 statistically indistinguishable. The load-bearing mechanism is the channel-partitioned residual stream, per-block rotation, per-phase normalization, and horn DC injection. We characterize (a) self-stabilization of the geometry without explicit enforcement, a novel instance of the conservation-law framework for neural networks; (b) a U-shaped depth profile of rotation-angle drift at 12 layers; (c) orthogonal composition with RoPE, attention, and FFN.