Le Canari Géométrique : Prédire la Pilotabilité et Détecter la Dérive par la Stabilité Représentationnelle
The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability
April 20, 2026
Auteurs: Prashant C. Raju
cs.AI
Résumé
Le déploiement fiable des modèles de langage nécessite deux capacités qui semblent distinctes mais partagent un fondement géométrique commun : prédire si un modèle acceptera un contrôle comportemental ciblé, et détecter quand sa structure interne se dégrade. Nous montrons que la stabilité géométrique, c'est-à-dire la cohérence de la structure des distances par paires d'une représentation, répond aux deux. Des variantes supervisées de Shesha qui mesurent la stabilité géométrique alignée sur la tâche prédisent la pilotabilité linéaire avec une précision quasi parfaite (ρ = 0,89-0,97) sur 35 à 69 modèles d'embedding et trois tâches de TAL, captant une variance unique au-delà de la séparabilité des classes (ρ partiel = 0,62-0,76). Une dissociation critique émerge : la stabilité non supervisée échoue totalement pour le pilotage sur des tâches réelles (ρ ≈ 0,10), révélant que l'alignement sur la tâche est essentiel pour la prédiction de la contrôlabilité. Cependant, la stabilité non supervisée excelle dans la détection de dérive, mesurant un changement géométrique près de 2 fois supérieur à CKA lors de l'alignement post-entraînement (jusqu'à 5,23 fois dans Llama) tout en fournissant une alerte plus précoce dans 73 % des modèles et en maintenant un taux de fausses alarmes 6 fois inférieur à Procrustes. Ensemble, la stabilité supervisée et non supervisée forment des diagnostics complémentaires pour le cycle de vie du déploiement des LLM : l'une pour l'évaluation de la contrôlabilité avant le déploiement, l'autre pour la surveillance après le déploiement.
English
Reliable deployment of language models requires two capabilities that appear distinct but share a common geometric foundation: predicting whether a model will accept targeted behavioral control, and detecting when its internal structure degrades. We show that geometric stability, the consistency of a representation's pairwise distance structure, addresses both. Supervised Shesha variants that measure task-aligned geometric stability predict linear steerability with near-perfect accuracy (ρ= 0.89-0.97) across 35-69 embedding models and three NLP tasks, capturing unique variance beyond class separability (partial ρ= 0.62-0.76). A critical dissociation emerges: unsupervised stability fails entirely for steering on real-world tasks (ρapprox 0.10), revealing that task alignment is essential for controllability prediction. However, unsupervised stability excels at drift detection, measuring nearly 2times greater geometric change than CKA during post-training alignment (up to 5.23times in Llama) while providing earlier warning in 73\% of models and maintaining a 6times lower false alarm rate than Procrustes. Together, supervised and unsupervised stability form complementary diagnostics for the LLM deployment lifecycle: one for pre-deployment controllability assessment, the other for post-deployment monitoring.