ChatPaper.aiChatPaper

RAPTOR: Sondas Logísticas de Adaptación de Crestas

RAPTOR: Ridge-Adaptive Logistic Probes

January 29, 2026
Autores: Ziqi Gao, Yaotian Zhu, Qingcheng Zeng, Xu Zhao, Ziqing Wang, Feng Ruan, Kaize Ding
cs.AI

Resumen

Los estudios de sondeo (probing) determinan qué información está codificada en las representaciones de capas congeladas de un LLM mediante el entrenamiento de un predictor ligero sobre ellas. Más allá del análisis, los sondas se utilizan a menudo operativamente en pipelines de "sondear y luego dirigir" (probe-then-steer): un vector de concepto aprendido se extrae de una sonda y se inyecta mediante la dirección aditiva de activaciones, sumándolo a una representación de capa durante la pasada hacia adelante. La eficacia de este pipeline depende de estimar vectores de concepto que sean precisos, direccionalmente estables bajo ablación y económicos de obtener. Motivados por estos requisitos, proponemos RAPTOR (Sonda Logística con Cresta Adaptativa), una sonda logística simple regularizada con L2 cuya fuerza de cresta ajustada por validación produce vectores de concepto a partir de pesos normalizados. A lo largo de extensos experimentos en LLMs ajustados por instrucción y conjuntos de datos de conceptos escritos por humanos, RAPTOR iguala o supera a líneas base sólidas en precisión, logrando al mismo tiempo una estabilidad direccional competitiva y un costo de entrenamiento sustancialmente menor; estos resultados cuantitativos están respaldados por demostraciones cualitativas de dirección (steering) aguas abajo. Finalmente, utilizando el Teorema del Mínimo-Máximo Gaussiano Convexo (CGMT), proporcionamos una caracterización mecanicista de la regresión logística con cresta en un modelo gaussiano idealizado de profesor-estudiante en el régimen de alta dimensionalidad y pocos ejemplos, explicando cómo la fuerza de la penalización media la precisión de la sonda y la estabilidad del vector de concepto, y produciendo predicciones estructurales que se alinean cualitativamente con las tendencias observadas en incrustaciones (embeddings) de LLMs reales.
English
Probing studies what information is encoded in a frozen LLM's layer representations by training a lightweight predictor on top of them. Beyond analysis, probes are often used operationally in probe-then-steer pipelines: a learned concept vector is extracted from a probe and injected via additive activation steering by adding it to a layer representation during the forward pass. The effectiveness of this pipeline hinges on estimating concept vectors that are accurate, directionally stable under ablation, and inexpensive to obtain. Motivated by these desiderata, we propose RAPTOR (Ridge-Adaptive Logistic Probe), a simple L2-regularized logistic probe whose validation-tuned ridge strength yields concept vectors from normalized weights. Across extensive experiments on instruction-tuned LLMs and human-written concept datasets, RAPTOR matches or exceeds strong baselines in accuracy while achieving competitive directional stability and substantially lower training cost; these quantitative results are supported by qualitative downstream steering demonstrations. Finally, using the Convex Gaussian Min-max Theorem (CGMT), we provide a mechanistic characterization of ridge logistic regression in an idealized Gaussian teacher-student model in the high-dimensional few-shot regime, explaining how penalty strength mediates probe accuracy and concept-vector stability and yielding structural predictions that qualitatively align with trends observed on real LLM embeddings.
PDF73February 3, 2026