SPINAL -- Integração de Leis de Escala e Preferências em Camadas de Alinhamento Neural

Resumo

O Otimização Direta de Preferências (DPO) é uma alternativa fundamentada e escalável ao RLHF para alinhar modelos de linguagem grandes a partir de preferências pareadas, mas a sua pegada geométrica interna permanece subcaracterizada, limitando auditorias, comparações de *checkpoints* e a previsão de falhas. Apresentamos o SPINAL (*Scaling-law and Preference Integration in Neural Alignment Layers*), um diagnóstico que mede como o alinhamento remodela as representações ao longo da profundidade do modelo, rastreando a mudança estrutural localizada camada por camada. Em diversas famílias de modelos, o DPO produz um efeito de calibração por camada concentrado nos blocos finais do decodificador (frequentemente nas camadas 21 a 30), onde os gradientes de preferência afetam mais diretamente a distribuição do próximo token. O SPINAL codifica cada *checkpoint* como um traço de profundidade sobre (índice da camada, pontuação de contração, pontuação de transporte). A pontuação de contração resume a rapidez com que a cauda do espectro de uma camada decai (a velocidade com que os modos pequenos desaparecem); valores mais altos indicam uma contração mais forte em menos direções efetivas. A pontuação de transporte resume o quanto a distribuição de tokens se desloca entre camadas adjacentes usando uma medida de sobreposição limitada; valores mais baixos indicam passos mais curtos e suaves através do espaço de representação. *Checkpoints* alinhados mostram um aumento progressivo da contração nas camadas finais e uma redução suave no transporte, consistente com uma massa de política mais compacta e estabilizada, enquanto modelos não alinhados traçam caminhos de profundidade de maior curvatura, mais entrópicos e geometricamente incoerentes. No geral, o alinhamento é geometricamente localizado: as camadas finais codificam as correções dominantes induzidas pela preferência. O SPINAL transforma essa localização num sinal prático de auditoria, quantificando onde o alinhamento se concentra, quão fortemente se manifesta e quando começa a desestabilizar durante o treinamento.

English

Direct Preference Optimization (DPO) is a principled, scalable alternative to RLHF for aligning large language models from pairwise preferences, but its internal geometric footprint remains undercharacterized, limiting audits, checkpoint comparisons, and failure prediction. We introduce SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), a diagnostic that measures how alignment reshapes representations across depth by tracing localized structural change layer by layer. Across model families, DPO produces a layerwise calibration effect concentrated in the final decoder blocks (often layers 21-30), where preference gradients most directly affect the next-token distribution. SPINAL encodes each checkpoint as a depth trace over (layer index, contraction score, transport score). The contraction score summarizes how quickly the tail of a layer's spectrum decays (how fast small modes vanish); higher values indicate stronger contraction into fewer effective directions. The transport score summarizes how much the token distribution shifts between adjacent layers using a bounded overlap measure; lower values indicate shorter, smoother steps through representation space. Aligned checkpoints show a late-layer ramp-up in contraction and a smooth reduction in transport, consistent with tightened and stabilized policy mass, while unaligned models trace higher-curvature, more entropic, and geometrically incoherent depth paths. Overall, alignment is geometrically localized: the final layers encode the dominant preference-induced corrections. SPINAL turns this localization into a practical audit signal, quantifying where alignment concentrates, how strongly it manifests, and when it begins to destabilize during training.

SPINAL -- Integração de Leis de Escala e Preferências em Camadas de Alinhamento Neural

SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers

Resumo

Support