SPINAL -- Intégration des lois d'échelle et des préférences dans les couches d'alignement neuronal
SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers
January 8, 2026
papers.authors: Arion Das, Partha Pratim Saha, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das
cs.AI
papers.abstract
L'optimisation directe des préférences (DPO) constitue une alternative rigoureuse et évolutive au RLHF pour l'alignement des grands modèles de langage à partir de préférences par paires, mais son empreinte géométrique interne reste mal caractérisée, limitant les audits, les comparaisons de points de contrôle et la prédiction des défaillances. Nous présentons SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), un diagnostic qui mesure comment l'alignement reconfigure les représentations en profondeur en traçant le changement structurel localisé couche par couche. À travers différentes familles de modèles, DPO produit un effet d'étalonnage par couches concentré dans les derniers blocs décodeurs (souches les couches 21 à 30), où les gradients de préférence affectent le plus directement la distribution du token suivant. SPINAL encode chaque point de contrôle comme une trace de profondeur sur (indice de couche, score de contraction, score de transport). Le score de contraction résume la rapidité avec laquelle la queue du spectre d'une couche décroît (vitesse à laquelle les petits modes disparaissent) ; des valeurs plus élevées indiquent une contraction plus forte en moins de directions effectives. Le score de transport résume l'ampleur du déplacement de la distribution des tokens entre couches adjacentes à l'aide d'une mesure de chevauchement bornée ; des valeurs plus faibles indiquent des étapes plus courtes et plus lisses dans l'espace de représentation. Les points de contrôle alignés montrent une augmentation tardive de la contraction dans les dernières couches et une réduction régulière du transport, cohérente avec un resserrement et une stabilisation de la masse de la politique, tandis que les modèles non alignés tracent des chemins de profondeur à courbure plus élevée, plus entropiques et géométriquement incohérents. Globalement, l'alignement est géométriquement localisé : les dernières couches encodent les corrections dominantes induites par les préférences. SPINAL transforme cette localisation en un signal d'audit pratique, quantifiant où l'alignement se concentre, avec quelle intensité il se manifeste, et quand il commence à se déstabiliser pendant l'entraînement.
English
Direct Preference Optimization (DPO) is a principled, scalable alternative to RLHF for aligning large language models from pairwise preferences, but its internal geometric footprint remains undercharacterized, limiting audits, checkpoint comparisons, and failure prediction. We introduce SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), a diagnostic that measures how alignment reshapes representations across depth by tracing localized structural change layer by layer. Across model families, DPO produces a layerwise calibration effect concentrated in the final decoder blocks (often layers 21-30), where preference gradients most directly affect the next-token distribution. SPINAL encodes each checkpoint as a depth trace over (layer index, contraction score, transport score). The contraction score summarizes how quickly the tail of a layer's spectrum decays (how fast small modes vanish); higher values indicate stronger contraction into fewer effective directions. The transport score summarizes how much the token distribution shifts between adjacent layers using a bounded overlap measure; lower values indicate shorter, smoother steps through representation space. Aligned checkpoints show a late-layer ramp-up in contraction and a smooth reduction in transport, consistent with tightened and stabilized policy mass, while unaligned models trace higher-curvature, more entropic, and geometrically incoherent depth paths. Overall, alignment is geometrically localized: the final layers encode the dominant preference-induced corrections. SPINAL turns this localization into a practical audit signal, quantifying where alignment concentrates, how strongly it manifests, and when it begins to destabilize during training.