SPINAL -- Integrazione di Leggi di Scala e Preferenze negli Strati di Allineamento Neurale
SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers
January 8, 2026
Autori: Arion Das, Partha Pratim Saha, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das
cs.AI
Abstract
L'ottimizzazione diretta delle preferenze (DPO) è un'alternativa metodologicamente solida e scalabile all'RLHF per l'allineamento di grandi modelli linguistici a partire da preferenze a coppie, ma la sua impronta geometrica interna rimane scarsamente caratterizzata, limitando audit, confronti tra checkpoint e previsione dei fallimenti. Introduciamo SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), uno strumento diagnostico che misura come l'allineamento rimodella le rappresentazioni attraverso la profondità del modello, tracciando il cambiamento strutturale localizzato strato per strato. Attraverso diverse famiglie di modelli, la DPO produce un effetto di calibrazione stratificato concentrato nei blocchi decoder finali (spesso strati 21-30), dove i gradienti delle preferenze influenzano più direttamente la distribuzione del token successivo. SPINAL codifica ogni checkpoint come una traccia di profondità su (indice dello strato, punteggio di contrazione, punteggio di trasporto). Il punteggio di contrazione riassume la rapidità con cui la coda dello spettro di uno strato decade (quanto velocemente le modalità piccole svaniscono); valori più alti indicano una contrazione più forte in meno direzioni efficaci. Il punteggio di trasporto riassume quanto la distribuzione dei token si sposta tra strati adiacenti utilizzando una misura di sovrapposizione limitata; valori più bassi indicano passi più brevi e uniformi attraverso lo spazio delle rappresentazioni. I checkpoint allineati mostrano un aumento progressivo della contrazione negli strati finali e una riduzione graduale del trasporto, coerente con una massa di policy più compatta e stabilizzata, mentre i modelli non allineati tracciano percorsi di profondità a curvatura più elevata, più entropici e geometricamente incoerenti. In sintesi, l'allineamento è geometricamente localizzato: gli strati finali codificano le correzioni dominanti indotte dalle preferenze. SPINAL trasforma questa localizzazione in un segnale di audit pratico, quantificando dove si concentra l'allineamento, con quale intensità si manifesta e quando inizia a destabilizzarsi durante l'addestramento.
English
Direct Preference Optimization (DPO) is a principled, scalable alternative to RLHF for aligning large language models from pairwise preferences, but its internal geometric footprint remains undercharacterized, limiting audits, checkpoint comparisons, and failure prediction. We introduce SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), a diagnostic that measures how alignment reshapes representations across depth by tracing localized structural change layer by layer. Across model families, DPO produces a layerwise calibration effect concentrated in the final decoder blocks (often layers 21-30), where preference gradients most directly affect the next-token distribution. SPINAL encodes each checkpoint as a depth trace over (layer index, contraction score, transport score). The contraction score summarizes how quickly the tail of a layer's spectrum decays (how fast small modes vanish); higher values indicate stronger contraction into fewer effective directions. The transport score summarizes how much the token distribution shifts between adjacent layers using a bounded overlap measure; lower values indicate shorter, smoother steps through representation space. Aligned checkpoints show a late-layer ramp-up in contraction and a smooth reduction in transport, consistent with tightened and stabilized policy mass, while unaligned models trace higher-curvature, more entropic, and geometrically incoherent depth paths. Overall, alignment is geometrically localized: the final layers encode the dominant preference-induced corrections. SPINAL turns this localization into a practical audit signal, quantifying where alignment concentrates, how strongly it manifests, and when it begins to destabilize during training.