El Canario Geométrico: Predicción de la Capacidad de Dirección y Detección de Deriva mediante la Estabilidad Representacional

Resumen

La implementación confiable de modelos de lenguaje requiere dos capacidades que parecen distintas pero comparten una base geométrica común: predecir si un modelo aceptará un control conductual dirigido y detectar cuándo se degrada su estructura interna. Demostramos que la estabilidad geométrica, la consistencia de la estructura de distancias por pares de una representación, aborda ambas. Las variantes supervisadas Shesha que miden la estabilidad geométrica alineada con la tarea predicen la capacidad de direccionamiento lineal con una precisión casi perfecta (ρ= 0.89-0.97) en 35-69 modelos de *embedding* y tres tareas de PLN, capturando una varianza única más allá de la separabilidad de clases (ρ parcial= 0.62-0.76). Surge una disociación crítica: la estabilidad no supervisada falla por completo para el direccionamiento en tareas del mundo real (ρ≈ 0.10), revelando que la alineación con la tarea es esencial para la previsión de controlabilidad. Sin embargo, la estabilidad no supervisada sobresale en la detección de deriva, midiendo un cambio geométrico casi 2 veces mayor que CKA durante la alineación posterior al entrenamiento (hasta 5.23 veces en Llama) mientras proporciona una alerta más temprana en el 73% de los modelos y mantiene una tasa de falsas alarmas 6 veces menor que Procrustes. Juntas, la estabilidad supervisada y no supervisada forman diagnósticos complementarios para el ciclo de vida de implementación de LLM: uno para la evaluación de controlabilidad previa a la implementación y el otro para el monitoreo posterior a la misma.

English

Reliable deployment of language models requires two capabilities that appear distinct but share a common geometric foundation: predicting whether a model will accept targeted behavioral control, and detecting when its internal structure degrades. We show that geometric stability, the consistency of a representation's pairwise distance structure, addresses both. Supervised Shesha variants that measure task-aligned geometric stability predict linear steerability with near-perfect accuracy (ρ= 0.89-0.97) across 35-69 embedding models and three NLP tasks, capturing unique variance beyond class separability (partial ρ= 0.62-0.76). A critical dissociation emerges: unsupervised stability fails entirely for steering on real-world tasks (ρapprox 0.10), revealing that task alignment is essential for controllability prediction. However, unsupervised stability excels at drift detection, measuring nearly 2times greater geometric change than CKA during post-training alignment (up to 5.23times in Llama) while providing earlier warning in 73\% of models and maintaining a 6times lower false alarm rate than Procrustes. Together, supervised and unsupervised stability form complementary diagnostics for the LLM deployment lifecycle: one for pre-deployment controllability assessment, the other for post-deployment monitoring.

El Canario Geométrico: Predicción de la Capacidad de Dirección y Detección de Deriva mediante la Estabilidad Representacional

The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability

Resumen

Support