Der geometrische Kanarienvogel: Vorhersage von Steuerbarkeit und Erkennung von Drift durch Repräsentationsstabilität.

Zusammenfassung

Zuverlässige Implementierung von Sprachmodellen erfordert zwei Fähigkeiten, die unterschiedlich erscheinen, aber eine gemeinsame geometrische Grundlage teilen: die Vorhersage, ob ein Modell gezielte Verhaltenskontrolle akzeptieren wird, und die Erkennung, wann seine interne Struktur degradiert. Wir zeigen, dass geometrische Stabilität – die Konsistenz der paarweisen Distanzstruktur einer Repräsentation – beide Anforderungen adressiert. Überwachte Shesha-Varianten, die aufgabenorientierte geometrische Stabilität messen, sagen lineare Steuerbarkeit mit nahezu perfekter Genauigkeit (ρ= 0,89–0,97) über 35–69 Embedding-Modelle und drei NLP-Aufgaben hinweg voraus und erfassen dabei zusätzliche Varianz jenseits von Klassen-Trennschärfe (partielles ρ= 0,62–0,76). Es zeigt sich eine kritische Dissoziation: Unüberwachte Stabilität versagt bei der Steuerbarkeitsvorhersage für reale Aufgaben völlig (ρ≈ 0,10), was verdeutlicht, dass Aufgabenorientierung für Kontrollierbarkeitsvorhersagen essenziell ist. Jedoch übertrifft unüberwachte Stabilität bei der Drift-Erkennung: Sie misst während des Post-Training-Alignments einen fast doppelt so großen geometrischen Wandel wie CKA (bis zu 5,23-mal in Llama), warnt in 73 % der Modelle früher und hält eine 6-mal niedrigere Falschalarmrate als Procrustes. Zusammen bilden überwachte und unüberwachte Stabilität komplementäre Diagnosewerkzeuge für den LLM-Implementierungslebenszyklus: eines für die Bewertung der Steuerbarkeit vor der Implementierung, das andere für die Überwachung nach der Implementierung.

English

Reliable deployment of language models requires two capabilities that appear distinct but share a common geometric foundation: predicting whether a model will accept targeted behavioral control, and detecting when its internal structure degrades. We show that geometric stability, the consistency of a representation's pairwise distance structure, addresses both. Supervised Shesha variants that measure task-aligned geometric stability predict linear steerability with near-perfect accuracy (ρ= 0.89-0.97) across 35-69 embedding models and three NLP tasks, capturing unique variance beyond class separability (partial ρ= 0.62-0.76). A critical dissociation emerges: unsupervised stability fails entirely for steering on real-world tasks (ρapprox 0.10), revealing that task alignment is essential for controllability prediction. However, unsupervised stability excels at drift detection, measuring nearly 2times greater geometric change than CKA during post-training alignment (up to 5.23times in Llama) while providing earlier warning in 73\% of models and maintaining a 6times lower false alarm rate than Procrustes. Together, supervised and unsupervised stability form complementary diagnostics for the LLM deployment lifecycle: one for pre-deployment controllability assessment, the other for post-deployment monitoring.

Der geometrische Kanarienvogel: Vorhersage von Steuerbarkeit und Erkennung von Drift durch Repräsentationsstabilität.

The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability

Zusammenfassung

Support