RAPTOR: Sondas Logísticas de Adaptação à Crista

Resumo

Estudos de *probing* investigam que informação está codificada nas representações de camadas congeladas de um LLM, treinando um preditor leve sobre elas. Para além da análise, as *probes* são frequentemente usadas operacionalmente em pipelines do tipo *probe-then-steer*: um vetor de conceito aprendido é extraído de uma *probe* e injetado via *steering* de ativação aditiva, somando-o a uma representação de camada durante a *forward pass*. A eficácia deste pipeline depende da estimação de vetores de conceito que sejam precisos, directionalmente estáveis sob ablação e de baixo custo computacional. Motivados por estes desideratos, propomos o RAPTOR (*Ridge-Adaptive Logistic Probe*), uma *probe* logística simples com regularização L2, cuja força *ridge* ajustada por validação produz vetores de conceito a partir de pesos normalizados. Através de extensivos experimentos em LLMs ajustados por instrução e conjuntos de dados de conceitos escritos por humanos, o RAPTOR iguala ou supera *baselines* fortes em precisão, ao mesmo tempo que alcança estabilidade direcional competitiva e um custo de treinamento substancialmente menor; estes resultados quantitativos são apoiados por demonstrações qualitativas de *steering* em tarefas subsequentes. Finalmente, usando o Teorema do Min-max Gaussiano Convexo (CGMT), fornecemos uma caracterização mecanicista da regressão logística *ridge* num modelo Gaussiano idealizado de professor-aluno no regime de alta dimensionalidade e poucos exemplos, explicando como a força da penalização media a precisão da *probe* e a estabilidade do vetor de conceito, e produzindo previsões estruturais que se alinham qualitativamente com as tendências observadas em *embeddings* de LLMs reais.

English

Probing studies what information is encoded in a frozen LLM's layer representations by training a lightweight predictor on top of them. Beyond analysis, probes are often used operationally in probe-then-steer pipelines: a learned concept vector is extracted from a probe and injected via additive activation steering by adding it to a layer representation during the forward pass. The effectiveness of this pipeline hinges on estimating concept vectors that are accurate, directionally stable under ablation, and inexpensive to obtain. Motivated by these desiderata, we propose RAPTOR (Ridge-Adaptive Logistic Probe), a simple L2-regularized logistic probe whose validation-tuned ridge strength yields concept vectors from normalized weights. Across extensive experiments on instruction-tuned LLMs and human-written concept datasets, RAPTOR matches or exceeds strong baselines in accuracy while achieving competitive directional stability and substantially lower training cost; these quantitative results are supported by qualitative downstream steering demonstrations. Finally, using the Convex Gaussian Min-max Theorem (CGMT), we provide a mechanistic characterization of ridge logistic regression in an idealized Gaussian teacher-student model in the high-dimensional few-shot regime, explaining how penalty strength mediates probe accuracy and concept-vector stability and yielding structural predictions that qualitatively align with trends observed on real LLM embeddings.

RAPTOR: Sondas Logísticas de Adaptação à Crista

RAPTOR: Ridge-Adaptive Logistic Probes

Resumo

Support