SPINAL -- Skalierungsgesetz- und Präferenzintegration in neuronalen Ausrichtungs-Schichten
SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers
January 8, 2026
papers.authors: Arion Das, Partha Pratim Saha, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das
cs.AI
papers.abstract
Direct Preference Optimization (DPO) ist eine prinzipiengeleitete, skalierbare Alternative zu RLHF für die Ausrichtung großer Sprachmodelle anhand paarweiser Präferenzen, doch ihr interner geometrischer Fußabdruck bleibt unterbestimmt, was Audits, Checkpoint-Vergleiche und Fehlervorhersagen einschränkt. Wir stellen SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers) vor, eine Diagnosetechnik, die misst, wie die Ausrichtung Repräsentationen über die Tiefe hinweg verändert, indem sie lokalisierten strukturellen Wandel Schicht für Schicht nachverfolgt. Über Modellfamilien hinweg erzeugt DPO einen schichtweisen Kalibrierungseffekt, der in den letzten Decoder-Blöcken konzentriert ist (oft Schichten 21-30), wo Präferenzgradienten die Next-Token-Verteilung am direktesten beeinflussen. SPINAL kodiert jeden Checkpoint als eine Tiefenspur über (Schichtindex, Kontraktionsscore, Transportscore). Der Kontraktionsscore fasst zusammen, wie schnell das Ende des Spektrums einer Schicht abklingt (wie schnell kleine Modi verschwinden); höhere Werte zeigen eine stärkere Kontraktion in weniger effektive Richtungen an. Der Transportscore fasst zusammen, wie stark sich die Tokenverteilung zwischen benachbarten Schichten unter Verwendung eines beschränkten Überlappungsmaßes verschiebt; niedrigere Werte zeigen kürzere, glattere Schritte durch den Repräsentationsraum an. Ausgerichtete Checkpoints zeigen einen spätschichtigen Anstieg der Kontraktion und eine glatte Reduktion des Transports, was mit einer gestrafften und stabilisierten Policy-Masse konsistent ist, während nicht-ausgerichtete Modelle Tiefenpfade mit höherer Krümmung, höherer Entropie und geometrisch inkohärente Pfade aufweisen. Insgesamt ist die Ausrichtung geometrisch lokalisiert: Die letzten Schichten kodieren die dominanten, präferenzinduzierten Korrekturen. SPINAL macht diese Lokalisierung zu einem praktischen Audit-Signal, das quantifiziert, wo sich die Ausrichtung konzentriert, wie stark sie sich manifestiert und wann sie während des Trainings zu destabilisieren beginnt.
English
Direct Preference Optimization (DPO) is a principled, scalable alternative to RLHF for aligning large language models from pairwise preferences, but its internal geometric footprint remains undercharacterized, limiting audits, checkpoint comparisons, and failure prediction. We introduce SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), a diagnostic that measures how alignment reshapes representations across depth by tracing localized structural change layer by layer. Across model families, DPO produces a layerwise calibration effect concentrated in the final decoder blocks (often layers 21-30), where preference gradients most directly affect the next-token distribution. SPINAL encodes each checkpoint as a depth trace over (layer index, contraction score, transport score). The contraction score summarizes how quickly the tail of a layer's spectrum decays (how fast small modes vanish); higher values indicate stronger contraction into fewer effective directions. The transport score summarizes how much the token distribution shifts between adjacent layers using a bounded overlap measure; lower values indicate shorter, smoother steps through representation space. Aligned checkpoints show a late-layer ramp-up in contraction and a smooth reduction in transport, consistent with tightened and stabilized policy mass, while unaligned models trace higher-curvature, more entropic, and geometrically incoherent depth paths. Overall, alignment is geometrically localized: the final layers encode the dominant preference-induced corrections. SPINAL turns this localization into a practical audit signal, quantifying where alignment concentrates, how strongly it manifests, and when it begins to destabilize during training.