ChatPaper.aiChatPaper

SPINAL -- ニューラルアライメント層におけるスケーリング則と選好性の統合

SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers

January 8, 2026
著者: Arion Das, Partha Pratim Saha, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das
cs.AI

要旨

直接選好最適化(DPO)は、大規模言語モデルをペアワイズ選好から整合させるための、強化学習による人間フィードバック(RLHF)に代わる原理的でスケーラブルな手法である。しかし、その内部的な幾何学的特性は十分に解明されておらず、監査、チェックポイント比較、および故障予測が制限されている。本研究では、SPINAL(Scaling-law and Preference Integration in Neural Alignment Layers)を提案する。これは、層ごとの局所的な構造変化を追跡することで、整合化が深さ方向にわたって表現をどのように再形成するかを測定する診断手法である。様々なモデルファミリーにわたって、DPOは最終デコーダーブロック(多くの場合21~30層)に集中した層ごとの較正効果を生み出す。ここでは選好勾配が次のトークン分布に最も直接的に影響する。SPINALは各チェックポイントを(層インデックス、収縮スコア、転送スコア)にわたる深度トレースとして符号化する。収縮スコアは、層のスペクトルの裾がどの程度急速に減衰するか(小さなモードがどの程度速く消失するか)を要約し、高い値はより少ない有効方向への強い収縮を示す。転送スコアは、有界重複測度を用いて、隣接する層間でトークン分布がどれだけシフトするかを要約し、低い値は表現空間を通るより短く滑らかなステップを示す。整合化されたチェックポイントでは、後続層で収縮が急増し、転送が滑らかに減少する。これは、政策の質量が緊密化され安定化されたことと一致する。一方、非整合モデルは、曲率が高く、よりエントロピー的で、幾何学的に非協調的な深度経路をたどる。全体として、整合化は幾何学的に局在化している:最終層が、選好によって誘導される主要な補正を符号化する。SPINALはこの局在化を実用的な監査信号に変換し、整合化がどこに集中し、どの程度強く現れ、訓練中にいつ不安定化し始めるかを定量化する。
English
Direct Preference Optimization (DPO) is a principled, scalable alternative to RLHF for aligning large language models from pairwise preferences, but its internal geometric footprint remains undercharacterized, limiting audits, checkpoint comparisons, and failure prediction. We introduce SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), a diagnostic that measures how alignment reshapes representations across depth by tracing localized structural change layer by layer. Across model families, DPO produces a layerwise calibration effect concentrated in the final decoder blocks (often layers 21-30), where preference gradients most directly affect the next-token distribution. SPINAL encodes each checkpoint as a depth trace over (layer index, contraction score, transport score). The contraction score summarizes how quickly the tail of a layer's spectrum decays (how fast small modes vanish); higher values indicate stronger contraction into fewer effective directions. The transport score summarizes how much the token distribution shifts between adjacent layers using a bounded overlap measure; lower values indicate shorter, smoother steps through representation space. Aligned checkpoints show a late-layer ramp-up in contraction and a smooth reduction in transport, consistent with tightened and stabilized policy mass, while unaligned models trace higher-curvature, more entropic, and geometrically incoherent depth paths. Overall, alignment is geometrically localized: the final layers encode the dominant preference-induced corrections. SPINAL turns this localization into a practical audit signal, quantifying where alignment concentrates, how strongly it manifests, and when it begins to destabilize during training.
PDF12January 31, 2026