De Geometrische Kanarie: Het Voorspellen van Stuurbaarheid en Detecteren van Drift via Representatiestabiliteit

Samenvatting

Betrouwbare inzet van taalmodelen vereist twee vaardigheden die ogenschijnlijk verschillend zijn maar een gemeenschappelijke geometrische basis delen: voorspellen of een model zich zal laten sturen via gerichte gedragscontrole, en detecteren wanneer de interne structuur degradeert. Wij tonen aan dat geometrische stabiliteit – de consistentie van de paarsgewijze afstandsstructuur van een representatie – beide adresseert. Gesuperviseerde Shesha-varianten die taak-uitgelijnde geometrische stabiliteit meten, voorspellen lineaire stuurbaarheid met een bijna perfecte nauwkeurigheid (ρ= 0.89-0.97) over 35-69 embeddingmodellen en drie NLP-taken, waarbij ze unieke variantie vastleggen die verder gaat dan klasse-scheidbaarheid (partiële ρ= 0.62-0.76). Er ontstaat een kritiek onderscheid: niet-gesuperviseerde stabiliteit faalt volledig voor het voorspellen van stuurbaarheid bij real-world taken (ρ≈ 0.10), wat aantoont dat taak-uitlijning essentieel is voor voorspelbaarheid van controleerbaarheid. Niet-gesuperviseerde stabiliteit blinkt echter uit in driftdetectie, meet tot bijna 2 keer meer geometrische verandering dan CKA tijdens post-training alignment (tot 5.23 keer in Llama), geeft in 73% van de modellen een eerder waarschuwing en handhaaft een 6 keer lager fout-positief percentage dan Procrustes. Samen vormen gesuperviseerde en niet-gesuperviseerde stabiliteit complementaire diagnostieken voor de LLM-inzetlevenscyclus: de ene voor beoordeling van controleerbaarheid vóór ingebruikname, de andere voor monitoring na ingebruikname.

English

Reliable deployment of language models requires two capabilities that appear distinct but share a common geometric foundation: predicting whether a model will accept targeted behavioral control, and detecting when its internal structure degrades. We show that geometric stability, the consistency of a representation's pairwise distance structure, addresses both. Supervised Shesha variants that measure task-aligned geometric stability predict linear steerability with near-perfect accuracy (ρ= 0.89-0.97) across 35-69 embedding models and three NLP tasks, capturing unique variance beyond class separability (partial ρ= 0.62-0.76). A critical dissociation emerges: unsupervised stability fails entirely for steering on real-world tasks (ρapprox 0.10), revealing that task alignment is essential for controllability prediction. However, unsupervised stability excels at drift detection, measuring nearly 2times greater geometric change than CKA during post-training alignment (up to 5.23times in Llama) while providing earlier warning in 73\% of models and maintaining a 6times lower false alarm rate than Procrustes. Together, supervised and unsupervised stability form complementary diagnostics for the LLM deployment lifecycle: one for pre-deployment controllability assessment, the other for post-deployment monitoring.

De Geometrische Kanarie: Het Voorspellen van Stuurbaarheid en Detecteren van Drift via Representatiestabiliteit

The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability

Samenvatting

Support