SPINAL -- Schaalwetten en Voorkeursintegratie in Neurale Uitlijningslagen
SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers
January 8, 2026
Auteurs: Arion Das, Partha Pratim Saha, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das
cs.AI
Samenvatting
Direct Preference Optimization (DPO) is een principieel, schaalbaar alternatief voor RLHF (Reinforcement Learning from Human Feedback) voor het afstemmen van grote taalmodel(len) op basis van gepaarde voorkeuren. Desalniettemin blijft de interne geometrische voetafdruk ervan onderbeschreven, wat audits, vergelijkingen tussen checkpoints en voorspelling van falen beperkt. Wij introduceren SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), een diagnostisch hulpmiddel dat meet hoe afstemming representaties over de diepte heen hervormt door gelokaliseerde structurele verandering laag voor laag te traceren. Over verschillende modelfamilies heen produceert DPO een laaggewijs kalibratie-effect dat geconcentreerd is in de laatste decoderblokken (vaak lagen 21-30), waar voorkeursgradiënten de grootste directe invloed hebben op de next-token-verdeling. SPINAL codeert elk checkpoint als een dieptespoor over (laagindex, contractiescore, transportscore). De contractiescore vat samen hoe snel de staart van het spectrum van een laag vervalt (hoe snel kleine modi verdwijnen); hogere waarden duiden op een sterkere samentrekking in minder effectieve richtingen. De transportscore vat samen hoeveel de tokenverdeling verschuift tussen aangrenzende lagen met behulp van een begrensde overlapmaat; lagere waarden duiden op kortere, vloeiendere stappen door de representatieruimte. Afgestemde checkpoints vertonen een toename in contractie in de late lagen en een soepele afname in transport, consistent met een aangescherpte en gestabiliseerde policy mass, terwijl niet-afgestemde modellen dieptepaden met een hogere kromming, meer entropie en geometrische incoherentie volgen. Over het algemeen is afstemming geometrisch gelokaliseerd: de laatste lagen coderen de dominante, door voorkeur geïnduceerde correcties. SPINAL zet deze lokalisatie om in een praktisch auditsignaal, dat kwantificeert waar de afstemming zich concentreert, hoe sterk deze zich manifesteert en wanneer deze tijdens de training begint te destabiliseren.
English
Direct Preference Optimization (DPO) is a principled, scalable alternative to RLHF for aligning large language models from pairwise preferences, but its internal geometric footprint remains undercharacterized, limiting audits, checkpoint comparisons, and failure prediction. We introduce SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), a diagnostic that measures how alignment reshapes representations across depth by tracing localized structural change layer by layer. Across model families, DPO produces a layerwise calibration effect concentrated in the final decoder blocks (often layers 21-30), where preference gradients most directly affect the next-token distribution. SPINAL encodes each checkpoint as a depth trace over (layer index, contraction score, transport score). The contraction score summarizes how quickly the tail of a layer's spectrum decays (how fast small modes vanish); higher values indicate stronger contraction into fewer effective directions. The transport score summarizes how much the token distribution shifts between adjacent layers using a bounded overlap measure; lower values indicate shorter, smoother steps through representation space. Aligned checkpoints show a late-layer ramp-up in contraction and a smooth reduction in transport, consistent with tightened and stabilized policy mass, while unaligned models trace higher-curvature, more entropic, and geometrically incoherent depth paths. Overall, alignment is geometrically localized: the final layers encode the dominant preference-induced corrections. SPINAL turns this localization into a practical audit signal, quantifying where alignment concentrates, how strongly it manifests, and when it begins to destabilize during training.