Transformador Trifásico

Resumo

Apresentamos o Three-Phase Transformer (3PT), um prior estrutural para o fluxo residual de Transformers *decoder-only* sobre uma arquitetura padrão com *backbone* SwiGLU + RMSNorm + RoPE + GQA. O vetor oculto é particionado em N canais cíclicos de tamanho igual, cada um mantido por operações que respeitam a fase: um RMSNorm por canal, uma rotação 2D de Givens entre a atenção e a FFN que rotaciona cada canal por theta + i*(2*pi/N), e uma restrição no número de *heads* alinhando os *heads* GQA com a partição. A arquitetura é um equilíbrio autoestabilizante entre embaralhamento e reimposição, não um módulo acoplado. A partição delimita um subespaço DC unidimensional ortogonal aos canais, no qual injetamos um perfil fixo de trombeta de Gabriel r(p) = 1/(p+1) como um canal lateral de posição absoluta que compõe ortogonalmente com a rotação de posição relativa do RoPE. A configuração canônica N=3 empresta sua metáfora de um sistema trifásico balanceado de CA, onde três senoides defasadas em 120 graus somam zero sem nenhum par anticorrelacionado. Com 123M de parâmetros no WikiText-103, o 3PT alcança uma redução de perplexidade de -7,20% (-2,62% em *bits-per-byte*) sobre uma linha de base RoPE-Only equivalente, com acréscimo de apenas +1.536 parâmetros (0,00124% do total), e uma aceleração de convergência de 1,93x na contagem de etapas (1,64x em *wall-clock*). N se comporta como um botão de compartilhamento de parâmetros, não um ótimo único: em 5,5M, uma varredura de N em {1,2,3,4,6,8,12} é quase monotônica, com N=1 vencendo; em 123M, uma varredura com três *seeds* mostra N=3 e N=1 estatisticamente indistinguíveis. O mecanismo estrutural é o fluxo residual particionado por canal, a rotação por bloco, a normalização por fase e a injeção DC da trombeta. Caracterizamos (a) a autoestabilização da geometria sem imposição explícita, um novo exemplo da estrutura de leis de conservação para redes neurais; (b) um perfil de profundidade em forma de U para a deriva do ângulo de rotação em 12 camadas; (c) a composição ortogonal com RoPE, atenção e FFN.

English

We present Three-Phase Transformer (3PT), a residual-stream structural prior for decoder-only Transformers on a standard SwiGLU + RMSNorm + RoPE + GQA backbone. The hidden vector is partitioned into N equally-sized cyclic channels, each maintained by phase-respecting ops: a per-channel RMSNorm, a 2D Givens rotation between attention and FFN that rotates each channel by theta + i*(2*pi/N), and a head-count constraint aligning GQA heads with the partition. The architecture is a self-stabilizing equilibrium between scrambling and re-imposition, not a bolted-on module. The partition carves out a one-dimensional DC subspace orthogonal to the channels, into which we inject a fixed Gabriel's horn profile r(p) = 1/(p+1) as an absolute-position side-channel composing orthogonally with RoPE's relative-position rotation. The canonical N=3 borrows its metaphor from balanced three-phase AC, where three sinusoids 120 degrees apart sum to zero with no anti-correlated pair. At 123M parameters on WikiText-103, 3PT achieves -7.20% perplexity (-2.62% bits-per-byte) over a matched RoPE-Only baseline at +1,536 parameters (0.00124% of total), with 1.93x step-count convergence speedup (1.64x wall-clock). N behaves as a parameter-sharing knob rather than a unique optimum: at 5.5M an N-sweep over {1,2,3,4,6,8,12} is near-monotone with N=1 winning; at 123M a three-seed sweep finds N=3 and N=1 statistically indistinguishable. The load-bearing mechanism is the channel-partitioned residual stream, per-block rotation, per-phase normalization, and horn DC injection. We characterize (a) self-stabilization of the geometry without explicit enforcement, a novel instance of the conservation-law framework for neural networks; (b) a U-shaped depth profile of rotation-angle drift at 12 layers; (c) orthogonal composition with RoPE, attention, and FFN.