O Canário Geométrico: Prevendo a Capacidade de Direcionamento e Detectando Deriva por meio da Estabilidade Representacional

Resumo

A implantação confiável de modelos de linguagem requer duas capacidades que parecem distintas, mas compartilham uma base geométrica comum: prever se um modelo aceitará controle comportamental direcionado e detectar quando sua estrutura interna se degrada. Mostramos que a estabilidade geométrica, a consistência da estrutura de distâncias pareadas de uma representação, aborda ambas. Variantes supervisionadas de Shesha que medem a estabilidade geométrica alinhada à tarefa preveem a controlabilidade linear com precisão quase perfeita (ρ= 0,89-0,97) em 35-69 modelos de *embedding* e três tarefas de PLN, capturando variância única além da separabilidade de classes (ρ parcial= 0,62-0,76). Surge uma dissociação crítica: a estabilidade não supervisionada falha completamente para a previsão de controlabilidade em tarefas do mundo real (ρ≈ 0,10), revelando que o alinhamento à tarefa é essencial para essa previsão. No entanto, a estabilidade não supervisionada se destaca na detecção de *drift*, medindo uma mudança geométrica quase 2 vezes maior do que a CKA durante o alinhamento pós-treinamento (até 5,23 vezes no Llama), enquanto fornece um alerta mais precoce em 73% dos modelos e mantém uma taxa de falso alarme 6 vezes menor que o Procrustes. Juntas, a estabilidade supervisionada e a não supervisionada formam diagnósticos complementares para o ciclo de vida de implantação de LLMs: uma para avaliação da controlabilidade antes da implantação e outra para monitoramento pós-implantação.

English

Reliable deployment of language models requires two capabilities that appear distinct but share a common geometric foundation: predicting whether a model will accept targeted behavioral control, and detecting when its internal structure degrades. We show that geometric stability, the consistency of a representation's pairwise distance structure, addresses both. Supervised Shesha variants that measure task-aligned geometric stability predict linear steerability with near-perfect accuracy (ρ= 0.89-0.97) across 35-69 embedding models and three NLP tasks, capturing unique variance beyond class separability (partial ρ= 0.62-0.76). A critical dissociation emerges: unsupervised stability fails entirely for steering on real-world tasks (ρapprox 0.10), revealing that task alignment is essential for controllability prediction. However, unsupervised stability excels at drift detection, measuring nearly 2times greater geometric change than CKA during post-training alignment (up to 5.23times in Llama) while providing earlier warning in 73\% of models and maintaining a 6times lower false alarm rate than Procrustes. Together, supervised and unsupervised stability form complementary diagnostics for the LLM deployment lifecycle: one for pre-deployment controllability assessment, the other for post-deployment monitoring.

O Canário Geométrico: Prevendo a Capacidade de Direcionamento e Detectando Deriva por meio da Estabilidade Representacional

The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability

Resumo

Support