ChatPaper.aiChatPaper

SPINAL -- Integración de Leyes de Escalado y Preferencias en Capas de Alineamiento Neuronal

SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers

January 8, 2026
Autores: Arion Das, Partha Pratim Saha, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das
cs.AI

Resumen

La Optimización Directa de Preferencias (DPO) es una alternativa escalable y fundamentada a RLHF para alinear modelos de lenguaje extenso a partir de preferencias por pares, pero su huella geométrica interna sigue estando poco caracterizada, lo que limita las auditorías, las comparaciones de puntos de control y la predicción de fallos. Presentamos SPINAL (Leyes de Escalado e Integración de Preferencias en Capas de Alineación Neuronal), un diagnóstico que mide cómo la alineación remodela las representaciones a lo largo de la profundidad del modelo rastreando el cambio estructural localizado capa por capa. En distintas familias de modelos, DPO produce un efecto de calibración por capas concentrado en los bloques finales del decodificador (a menudo las capas 21-30), donde los gradientes de preferencia afectan más directamente a la distribución del siguiente token. SPINAL codifica cada punto de control como un trazo de profundidad sobre (índice de capa, puntuación de contracción, puntuación de transporte). La puntuación de contracción resume la rapidez con la que decae la cola del espectro de una capa (la velocidad a la que desaparecen los modos pequeños); valores más altos indican una contracción más fuerte en menos direcciones efectivas. La puntuación de transporte resume cuánto se desplaza la distribución de tokens entre capas adyacentes utilizando una medida de solapamiento acotada; valores más bajos indican pasos más cortos y suaves a través del espacio de representación. Los puntos de control alineados muestran un aumento progresivo de la contracción en las últimas capas y una reducción suave del transporte, coherente con una masa de política más ajustada y estabilizada, mientras que los modelos no alineados trazan trayectorias de profundidad de mayor curvatura, más entrópicas y geométricamente incoherentes. En general, la alineación está geométricamente localizada: las capas finales codifican las correcciones dominantes inducidas por las preferencias. SPINAL convierte esta localización en una señal de auditoría práctica, cuantificando dónde se concentra la alineación, con qué fuerza se manifiesta y cuándo comienza a desestabilizarse durante el entrenamiento.
English
Direct Preference Optimization (DPO) is a principled, scalable alternative to RLHF for aligning large language models from pairwise preferences, but its internal geometric footprint remains undercharacterized, limiting audits, checkpoint comparisons, and failure prediction. We introduce SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), a diagnostic that measures how alignment reshapes representations across depth by tracing localized structural change layer by layer. Across model families, DPO produces a layerwise calibration effect concentrated in the final decoder blocks (often layers 21-30), where preference gradients most directly affect the next-token distribution. SPINAL encodes each checkpoint as a depth trace over (layer index, contraction score, transport score). The contraction score summarizes how quickly the tail of a layer's spectrum decays (how fast small modes vanish); higher values indicate stronger contraction into fewer effective directions. The transport score summarizes how much the token distribution shifts between adjacent layers using a bounded overlap measure; lower values indicate shorter, smoother steps through representation space. Aligned checkpoints show a late-layer ramp-up in contraction and a smooth reduction in transport, consistent with tightened and stabilized policy mass, while unaligned models trace higher-curvature, more entropic, and geometrically incoherent depth paths. Overall, alignment is geometrically localized: the final layers encode the dominant preference-induced corrections. SPINAL turns this localization into a practical audit signal, quantifying where alignment concentrates, how strongly it manifests, and when it begins to destabilize during training.
PDF12January 31, 2026