Трёхфазный трансформатор
Three-Phase Transformer
April 15, 2026
Авторы: Mohammad R. Abu Ayyash
cs.AI
Аннотация
Мы представляем Three-Transformer (3PT) — структурный априор для остаточного потока в декодер-трансформерах с базовой архитектурой SwiGLU + RMSNorm + RoPE + GQA. Скрытый вектор разбивается на N равных по размеру циклических каналов, каждый из которых обслуживается операциями, учитывающими фазу: RMSNorm для каждого канала, 2D-вращение Гивенса между слоем внимания и FFN, которое поворачивает каждый канал на угол theta + i*(2*pi/N), и ограничение на число голов внимания, согласующее GQA-головы с разбиением. Данная архитектура представляет собой самостабилизирующееся равновесие между перемешиванием и повторным упорядочиванием, а не просто навесной модуль. Разбиение выделяет одномерное DC-подпространство, ортогональное каналам, в которое мы инжектируем фиксированный профиль рога Габриэля r(p) = 1/(p+1) в качестве канала абсолютной позиции, ортогонально комбинирующегося с относительным позиционным вращением RoPE. Канонический случай N=3 заимствует свою метафору из сбалансированной трёхфазной системы переменного тока, где три синусоиды, сдвинутые на 120 градусов, в сумме дают ноль без образования антикоррелированных пар. При размере модели 123M параметров на WikiText-103, 3PT достигает снижения перплексии на -7.20% (и -2.62% по битам на байт) по сравнению с базовой моделью, использующей только RoPE, при добавлении всего +1,536 параметров (0.00124% от общего числа), и ускоряет сходимость по числу шагов в 1.93 раза (в 1.64 раза по реальному времени). Параметр N ведёт себя как регулятор разделения параметров, а не как уникальный оптимум: при размере 5.5M параметров перебор N из множества {1,2,3,4,6,8,12} даёт почти монотонную зависимость с преимуществом N=1; при 123M параметрах перебор по трём сидам показывает, что N=3 и N=1 статистически неразличимы. Ключевыми механизмами являются разбиение остаточного потока на каналы, покомпонентное вращение, нормирование по фазам и инжекция DC-составляющей в виде "рога". Мы характеризуем (a) самостабилизацию геометрии без явного принуждения, что является новым примером в рамках подхода законов сохранения для нейронных сетей; (b) U-образный профиль дрейфа угла вращения по глубине сети при 12 слоях; (c) ортогональную композицию с RoPE, вниманием и FFN.
English
We present Three-Phase Transformer (3PT), a residual-stream structural prior for decoder-only Transformers on a standard SwiGLU + RMSNorm + RoPE + GQA backbone. The hidden vector is partitioned into N equally-sized cyclic channels, each maintained by phase-respecting ops: a per-channel RMSNorm, a 2D Givens rotation between attention and FFN that rotates each channel by theta + i*(2*pi/N), and a head-count constraint aligning GQA heads with the partition. The architecture is a self-stabilizing equilibrium between scrambling and re-imposition, not a bolted-on module. The partition carves out a one-dimensional DC subspace orthogonal to the channels, into which we inject a fixed Gabriel's horn profile r(p) = 1/(p+1) as an absolute-position side-channel composing orthogonally with RoPE's relative-position rotation. The canonical N=3 borrows its metaphor from balanced three-phase AC, where three sinusoids 120 degrees apart sum to zero with no anti-correlated pair. At 123M parameters on WikiText-103, 3PT achieves -7.20% perplexity (-2.62% bits-per-byte) over a matched RoPE-Only baseline at +1,536 parameters (0.00124% of total), with 1.93x step-count convergence speedup (1.64x wall-clock). N behaves as a parameter-sharing knob rather than a unique optimum: at 5.5M an N-sweep over {1,2,3,4,6,8,12} is near-monotone with N=1 winning; at 123M a three-seed sweep finds N=3 and N=1 statistically indistinguishable. The load-bearing mechanism is the channel-partitioned residual stream, per-block rotation, per-phase normalization, and horn DC injection. We characterize (a) self-stabilization of the geometry without explicit enforcement, a novel instance of the conservation-law framework for neural networks; (b) a U-shaped depth profile of rotation-angle drift at 12 layers; (c) orthogonal composition with RoPE, attention, and FFN.