ChatPaper.aiChatPaper

RAPTOR : Sondes Logistiques à Adaptation de Crête

RAPTOR: Ridge-Adaptive Logistic Probes

January 29, 2026
papers.authors: Ziqi Gao, Yaotian Zhu, Qingcheng Zeng, Xu Zhao, Ziqing Wang, Feng Ruan, Kaize Ding
cs.AI

papers.abstract

Les études par sondage visent à déterminer quelles informations sont encodées dans les représentations d'une couche d'un LLM figé, en entraînant un prédicteur léger sur celles-ci. Au-delà de l'analyse, les sondes sont souvent utilisées de manière opérationnelle dans des pipelines de type « sonder puis orienter » : un vecteur de concept appris est extrait d'une sonde et injecté via un pilotage additif des activations en l'ajoutant à une représentation de couche durant la passe avant. L'efficacité de ce pipeline repose sur l'estimation de vecteurs de concept qui sont précis, stablement directionnels sous ablation, et peu coûteux à obtenir. Motivés par ces objectifs, nous proposons RAPTOR (Ridge-Adaptive Logistic Probe), une simple sonde logistique régularisée par L2 dont la force de ridge ajustée par validation produit des vecteurs de concept à partir de poids normalisés. À travers de nombreuses expériences sur des LLM fine-tunés par instructions et des ensembles de données de concepts rédigés par des humains, RAPTOR égal ou dépasse des bases de référence solides en précision tout en atteignant une stabilité directionnelle concurrentielle et un coût d'entraînement substantiellement inférieur ; ces résultats quantitatifs sont étayés par des démonstrations qualitatives de pilotage en aval. Enfin, en utilisant le théorème min-max gaussien convexe (Convex Gaussian Min-max Theorem, CGMT), nous fournissons une caractérisation mécanistique de la régression logistique ridge dans un modèle idéalisé gaussien maître-élève dans le régime haute dimension avec peu d'exemples, expliquant comment la force de pénalité médie la précision de la sonde et la stabilité du vecteur de concept, et produisant des prédictions structurelles qui s'alignent qualitativement sur les tendances observées sur les embeddings réels de LLM.
English
Probing studies what information is encoded in a frozen LLM's layer representations by training a lightweight predictor on top of them. Beyond analysis, probes are often used operationally in probe-then-steer pipelines: a learned concept vector is extracted from a probe and injected via additive activation steering by adding it to a layer representation during the forward pass. The effectiveness of this pipeline hinges on estimating concept vectors that are accurate, directionally stable under ablation, and inexpensive to obtain. Motivated by these desiderata, we propose RAPTOR (Ridge-Adaptive Logistic Probe), a simple L2-regularized logistic probe whose validation-tuned ridge strength yields concept vectors from normalized weights. Across extensive experiments on instruction-tuned LLMs and human-written concept datasets, RAPTOR matches or exceeds strong baselines in accuracy while achieving competitive directional stability and substantially lower training cost; these quantitative results are supported by qualitative downstream steering demonstrations. Finally, using the Convex Gaussian Min-max Theorem (CGMT), we provide a mechanistic characterization of ridge logistic regression in an idealized Gaussian teacher-student model in the high-dimensional few-shot regime, explaining how penalty strength mediates probe accuracy and concept-vector stability and yielding structural predictions that qualitatively align with trends observed on real LLM embeddings.
PDF73February 3, 2026