ChatPaper.aiChatPaper

SPINAL — интеграция законов масштабирования и предпочтений в слоях нейронного согласования

SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers

January 8, 2026
Авторы: Arion Das, Partha Pratim Saha, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das
cs.AI

Аннотация

Прямая оптимизация предпочтений (Direct Preference Optimization, DPO) представляет собой принципиальную и масштабируемую альтернативу RLHF для согласования больших языковых моделей на основе парных предпочтений, однако её внутренний геометрический след остаётся недостаточно изученным, что ограничивает возможности аудита, сравнения контрольных точек и прогнозирования сбоев. Мы представляем SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers) — диагностический метод, который измеряет, как согласование преобразует репрезентации по глубине сети, отслеживая локализованные структурные изменения слой за слоем. В различных семействах моделей DPO производит послойный калибровочный эффект, сконцентрированный в последних декодерных блоках (часто слои 21–30), где градиенты предпочтений наиболее непосредственно влияют на распределение следующего токена. SPINAL кодирует каждую контрольную точку как траекторию по глубине, заданную тройкой (индекс слоя, показатель сжатия, показатель переноса). Показатель сжатия суммирует скорость затухания хвоста спектра слоя (как быстро исчезают малые моды); более высокие значения указывают на сильное сжатие в меньшее количество эффективных направлений. Показатель переноса суммирует величину смещения распределения токенов между соседними слоями с использованием меры ограниченного перекрытия; более низкие значения указывают на более короткие и плавные шаги в пространстве репрезентаций. Согласованные контрольные точки демонстрируют рост сжатия в поздних слоях и плавное снижение переноса, что согласуется с уплотнённой и стабилизированной массой политики, тогда как несогласованные модели следуют по траекториям большей кривизны, более энтропийным и геометрически несогласованным. В целом, согласование геометрически локализовано: финальные слои кодируют доминирующие поправки, индуцированные предпочтениями. SPINAL превращает эту локализацию в практический сигнал для аудита, количественно определяя, где концентрируется согласование, насколько сильно оно проявляется и когда начинает дестабилизироваться в процессе обучения.
English
Direct Preference Optimization (DPO) is a principled, scalable alternative to RLHF for aligning large language models from pairwise preferences, but its internal geometric footprint remains undercharacterized, limiting audits, checkpoint comparisons, and failure prediction. We introduce SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), a diagnostic that measures how alignment reshapes representations across depth by tracing localized structural change layer by layer. Across model families, DPO produces a layerwise calibration effect concentrated in the final decoder blocks (often layers 21-30), where preference gradients most directly affect the next-token distribution. SPINAL encodes each checkpoint as a depth trace over (layer index, contraction score, transport score). The contraction score summarizes how quickly the tail of a layer's spectrum decays (how fast small modes vanish); higher values indicate stronger contraction into fewer effective directions. The transport score summarizes how much the token distribution shifts between adjacent layers using a bounded overlap measure; lower values indicate shorter, smoother steps through representation space. Aligned checkpoints show a late-layer ramp-up in contraction and a smooth reduction in transport, consistent with tightened and stabilized policy mass, while unaligned models trace higher-curvature, more entropic, and geometrically incoherent depth paths. Overall, alignment is geometrically localized: the final layers encode the dominant preference-induced corrections. SPINAL turns this localization into a practical audit signal, quantifying where alignment concentrates, how strongly it manifests, and when it begins to destabilize during training.
PDF12January 31, 2026