SPINAL -- 신경 정렬 계층에서의 스케일링 법칙 및 선호도 통합
SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers
January 8, 2026
저자: Arion Das, Partha Pratim Saha, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das
cs.AI
초록
직접 선호도 최적화(DPO)는 대규모 언어 모델을 쌍별 선호도에 맞춰 정렬하기 위한 RLHF의 원칙적이고 확장 가능한 대안이지만, 그 내부 기하학적 특성은 충분히 규명되지 않아 감사, 체크포인트 비교, 실패 예측에 제한을 줍니다. 우리는 SPINAL(신경 정렬 계층 내 스케일링 법칙 및 선호도 통합)을 소개합니다. 이는 정렬이 표현 공간을 계층별로 어떻게 재구성하는지 국소적 구조 변화를 추적하여 측정하는 진단법입니다. 다양한 모델 패밀리에서 DPO는 주로 최종 디코더 블록(종종 21-30계층)에 집중된 계층별 보정 효과를 생성하며, 이는 선호도 기울기가 다음 토큰 분포에 가장 직접적으로 영향을 미치는 영역입니다. SPINAL은 각 체크포인트를 (계층 인덱스, 수축 점수, 이동 점수)에 대한 깊이 추적으로 인코딩합니다. 수축 점수는 한 계층의 스펙트럼 꼬리가 얼마나 빠르게 감소하는지(작은 모드가 얼마나 빨리 사라지는지)를 요약하며, 높은 값은 더 적은 유효 방향으로의 강한 수축을 나타냅니다. 이동 점수는 경계 중첩 측정을 사용해 인접 계층 간 토큰 분포 이동량을 요약하며, 낮은 값은 표현 공간 내에서 더 짧고 부드러운 이동을 의미합니다. 정렬된 체크포인트는 후반 계층에서 수축이 급증하고 이동이 부드럽게 감소하는 패턴을 보이며, 이는 정책 질량이 강화되고 안정화된 것과 일치합니다. 반면, 비정렬 모델은 더 높은 곡률, 더 높은 엔트로피, 그리고 기하학적으로 비일관된 깊이 경로를 추적합니다. 전체적으로 정렬은 기하학적으로 국소화됩니다: 최종 계층들이 지배적인 선호도 유도 보정을 인코딩합니다. SPINAL은 이러한 국소화를 실용적인 감사 신호로 전환하여 정렬이 어디에 집중되는지, 얼마나 강하게 나타나는지, 훈련 중 언제 불안정해지기 시작하는지를 정량화합니다.
English
Direct Preference Optimization (DPO) is a principled, scalable alternative to RLHF for aligning large language models from pairwise preferences, but its internal geometric footprint remains undercharacterized, limiting audits, checkpoint comparisons, and failure prediction. We introduce SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), a diagnostic that measures how alignment reshapes representations across depth by tracing localized structural change layer by layer. Across model families, DPO produces a layerwise calibration effect concentrated in the final decoder blocks (often layers 21-30), where preference gradients most directly affect the next-token distribution. SPINAL encodes each checkpoint as a depth trace over (layer index, contraction score, transport score). The contraction score summarizes how quickly the tail of a layer's spectrum decays (how fast small modes vanish); higher values indicate stronger contraction into fewer effective directions. The transport score summarizes how much the token distribution shifts between adjacent layers using a bounded overlap measure; lower values indicate shorter, smoother steps through representation space. Aligned checkpoints show a late-layer ramp-up in contraction and a smooth reduction in transport, consistent with tightened and stabilized policy mass, while unaligned models trace higher-curvature, more entropic, and geometrically incoherent depth paths. Overall, alignment is geometrically localized: the final layers encode the dominant preference-induced corrections. SPINAL turns this localization into a practical audit signal, quantifying where alignment concentrates, how strongly it manifests, and when it begins to destabilize during training.