Il Canarino Geometrico: Prevedere la Sterzabilità e Rilevare la Deriva tramite la Stabilità Rappresentazionale

Abstract

La distribuzione affidabile di modelli linguistici richiede due capacità che appaiono distinte ma condividono un fondamento geometrico comune: prevedere se un modello accetterà un controllo comportamentale mirato e rilevare quando la sua struttura interna si degrada. Dimostriamo che la stabilità geometrica, ovvero la coerenza della struttura delle distanze a coppie di una rappresentazione, affronta entrambi gli aspetti. Le varianti Shesha supervisionate che misurano la stabilità geometrica allineata al compito predicono la controllabilità lineare con un'accuratezza quasi perfetta (ρ= 0,89-0,97) su 35-69 modelli di embedding e tre attività di NLP, catturando una varianza unica oltre la separabilità delle classi (ρ parziale= 0,62-0,76). Emerge una dissociazione critica: la stabilità non supervisionata fallisce completamente per la controllabilità nelle attività del mondo reale (ρ≈0,10), rivelando che l'allineamento al compito è essenziale per la previsione della controllabilità. Tuttavia, la stabilità non supervisionata eccelle nel rilevamento del deterioramento, misurando un cambiamento geometrico quasi 2 volte maggiore rispetto a CKA durante l'allineamento post-addestramento (fino a 5,23 volte in Llama) mentre fornisce un allarme anticipato nel 73% dei modelli e mantiene un tasso di falsi allarmi 6 volte inferiore a Procrustes. Insieme, la stabilità supervisionata e non supervisionata formano diagnostiche complementari per il ciclo di vita di distribuzione degli LLM: una per la valutazione della controllabilità pre-distribuzione, l'altra per il monitoraggio post-distribuzione.

English

Reliable deployment of language models requires two capabilities that appear distinct but share a common geometric foundation: predicting whether a model will accept targeted behavioral control, and detecting when its internal structure degrades. We show that geometric stability, the consistency of a representation's pairwise distance structure, addresses both. Supervised Shesha variants that measure task-aligned geometric stability predict linear steerability with near-perfect accuracy (ρ= 0.89-0.97) across 35-69 embedding models and three NLP tasks, capturing unique variance beyond class separability (partial ρ= 0.62-0.76). A critical dissociation emerges: unsupervised stability fails entirely for steering on real-world tasks (ρapprox 0.10), revealing that task alignment is essential for controllability prediction. However, unsupervised stability excels at drift detection, measuring nearly 2times greater geometric change than CKA during post-training alignment (up to 5.23times in Llama) while providing earlier warning in 73\% of models and maintaining a 6times lower false alarm rate than Procrustes. Together, supervised and unsupervised stability form complementary diagnostics for the LLM deployment lifecycle: one for pre-deployment controllability assessment, the other for post-deployment monitoring.

Il Canarino Geometrico: Prevedere la Sterzabilità e Rilevare la Deriva tramite la Stabilità Rappresentazionale

The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability

Abstract

Support