Геометрическая канарейка: прогнозирование управляемости и обнаружение дрейфа через устойчивость представлений

Аннотация

Надежное развертывание языковых моделей требует двух, казалось бы, различных, но имеющих общую геометрическую основу способностей: прогнозирования того, будет ли модель поддаваться целевому поведенческому контролю, и обнаружения деградации ее внутренней структуры. Мы показываем, что геометрическая стабильность — согласованность структуры попарных расстояний представлений — решает обе задачи. Контролируемые варианты метода Shesha, измеряющие геометрическую стабильность, выровненную по задаче, предсказывают линейную управляемость с почти идеальной точностью (ρ= 0.89–0.97) для 35–69 моделей эмбеддингов и трех задач NLP, фиксируя уникальную дисперсию поверх разделимости классов (частный ρ= 0.62–0.76). Обнаруживается ключевое различие: неконтролируемая стабильность полностью непригодна для прогнозирования управляемости в реальных задачах (ρ≈ 0.10), что показывает важность выравнивания по задаче. Однако неконтролируемая стабильность превосходно справляется с обнаружением дрейфа, фиксируя почти вдвое большее геометрическое изменение по сравнению с CKA в процессе посттренировочного выравнивания (до 5.23 раз в Llama), при этом обеспечивая более раннее предупреждение в 73% моделей и поддерживая в 6 раз более низкий уровень ложных срабатываний, чем метод Прокруста. Вместе контролируемая и неконтролируемая стабильность формируют взаимодополняющие диагностические инструменты для жизненного цикла развертывания LLM: первый — для оценки управляемости до развертывания, второй — для мониторинга после него.

English

Reliable deployment of language models requires two capabilities that appear distinct but share a common geometric foundation: predicting whether a model will accept targeted behavioral control, and detecting when its internal structure degrades. We show that geometric stability, the consistency of a representation's pairwise distance structure, addresses both. Supervised Shesha variants that measure task-aligned geometric stability predict linear steerability with near-perfect accuracy (ρ= 0.89-0.97) across 35-69 embedding models and three NLP tasks, capturing unique variance beyond class separability (partial ρ= 0.62-0.76). A critical dissociation emerges: unsupervised stability fails entirely for steering on real-world tasks (ρapprox 0.10), revealing that task alignment is essential for controllability prediction. However, unsupervised stability excels at drift detection, measuring nearly 2times greater geometric change than CKA during post-training alignment (up to 5.23times in Llama) while providing earlier warning in 73\% of models and maintaining a 6times lower false alarm rate than Procrustes. Together, supervised and unsupervised stability form complementary diagnostics for the LLM deployment lifecycle: one for pre-deployment controllability assessment, the other for post-deployment monitoring.

Геометрическая канарейка: прогнозирование управляемости и обнаружение дрейфа через устойчивость представлений

The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability

Аннотация

Support