RAPTOR: Ridge-adaptive logistische Sonden
RAPTOR: Ridge-Adaptive Logistic Probes
January 29, 2026
papers.authors: Ziqi Gao, Yaotian Zhu, Qingcheng Zeng, Xu Zhao, Ziqing Wang, Feng Ruan, Kaize Ding
cs.AI
papers.abstract
Bei Probing wird untersucht, welche Informationen in den eingefrorenen Schichtrepräsentationen eines großen Sprachmodells (LLM) kodiert sind, indem ein leichtgewichtiger Prädiktor auf diesen trainiert wird. Über die Analyse hinaus werden Sonden (Probes) oft operational in "Probe-then-Steer"-Pipelines eingesetzt: Ein erlernter Konzeptvektor wird aus einer Sonde extrahiert und durch additive Aktivierungssteuerung injiziert, indem er während des Vorwärtsdurchlaufs zu einer Schichtrepräsentation addiert wird. Die Wirksamkeit dieser Pipeline hängt davon ab, Konzeptvektoren zu schätzen, die genau, unter Ablation richtungsstabil und kostengünstig zu ermitteln sind. Motiviert durch diese Anforderungen schlagen wir RAPTOR (Ridge-Adaptive Logistic Probe) vor, eine einfache L2-regularisierte logistische Sonde, deren validierungsoptimierte Ridge-Stärke Konzeptvektoren aus normalisierten Gewichten liefert. In umfangreichen Experimenten mit instruktionsfinetunten LLMs und menschlich verfassten Konzeptdatensätzen erreicht oder übertrifft RAPTOR starke Baseline-Modelle in der Genauigkeit, erzielt dabei eine vergleichbare Richtungsstabilität und deutlich geringere Trainingskosten; diese quantitativen Ergebnisse werden durch qualitative Demonstrationen der nachgelagerten Steuerung untermauert. Abschließend liefern wir mithilfe des Convex Gaussian Min-max Theorem (CGMT) eine mechanistische Charakterisierung der Ridge-Logistischen Regression in einem idealisierten Gaussian Teacher-Student-Modell im hochdimensionalen Few-Shot-Regime, die erklärt, wie die Strafstärke die Sondengenauigkeit und die Stabilität der Konzeptvektoren vermittelt, und strukturelle Vorhersagen liefert, die qualitativ mit den auf realen LLM-Einbettungen beobachteten Trends übereinstimmen.
English
Probing studies what information is encoded in a frozen LLM's layer representations by training a lightweight predictor on top of them. Beyond analysis, probes are often used operationally in probe-then-steer pipelines: a learned concept vector is extracted from a probe and injected via additive activation steering by adding it to a layer representation during the forward pass. The effectiveness of this pipeline hinges on estimating concept vectors that are accurate, directionally stable under ablation, and inexpensive to obtain. Motivated by these desiderata, we propose RAPTOR (Ridge-Adaptive Logistic Probe), a simple L2-regularized logistic probe whose validation-tuned ridge strength yields concept vectors from normalized weights. Across extensive experiments on instruction-tuned LLMs and human-written concept datasets, RAPTOR matches or exceeds strong baselines in accuracy while achieving competitive directional stability and substantially lower training cost; these quantitative results are supported by qualitative downstream steering demonstrations. Finally, using the Convex Gaussian Min-max Theorem (CGMT), we provide a mechanistic characterization of ridge logistic regression in an idealized Gaussian teacher-student model in the high-dimensional few-shot regime, explaining how penalty strength mediates probe accuracy and concept-vector stability and yielding structural predictions that qualitatively align with trends observed on real LLM embeddings.