ChatPaper.aiChatPaper

RAPTOR: リッジ適応型ロジスティックプローブ

RAPTOR: Ridge-Adaptive Logistic Probes

January 29, 2026
著者: Ziqi Gao, Yaotian Zhu, Qingcheng Zeng, Xu Zhao, Ziqing Wang, Feng Ruan, Kaize Ding
cs.AI

要旨

プロービング(探査)は、固定化された大規模言語モデル(LLM)の層表現にどのような情報が符号化されているかを、その上に軽量な予測器を訓練することで調査する手法です。分析を超えて、プローブは多くの場合、プローブ・アンド・ステア(探査・制御)パイプラインで操作的に使用されます。すなわち、学習された概念ベクトルをプローブから抽出し、加法的な活性化ステアリングによって、順伝播中の層表現に加算することで注入します。このパイプラインの有効性は、正確で、除去操作に対して方向性が安定しており、かつ低コストで取得可能な概念ベクトルを推定できるかどうかにかかっています。これらの要件に動機付けられ、我々はRAPTOR(Ridge-Adaptive Logistic Probe)を提案します。これは、検証データで調整されたリッジ強度によって、正規化された重みから概念ベクトルを生成する、単純なL2正則化ロジスティックプローブです。命令チューニングされたLLMと人手で作成された概念データセットを用いた広範な実験において、RAPTORは精度において強力なベースラインと同等かそれを上回りながら、競争力のある方向安定性と大幅に低い訓練コストを達成しました。これらの定量的な結果は、定性的な下流タスクにおけるステアリングの実証によって支持されています。最後に、凸ガウスミニマックス定理(CGMT)を用いて、高次元少数ショット領域における理想化されたガウシアン教師-生徒モデルにおけるリッジロジスティック回帰の機構的特性を説明し、ペナルティ強度が如何にプローブの精度と概念ベクトルの安定性を媒介するかを解明し、実際のLLM埋め込みで観測される傾向と定性的に一致する構造的予測を導出します。
English
Probing studies what information is encoded in a frozen LLM's layer representations by training a lightweight predictor on top of them. Beyond analysis, probes are often used operationally in probe-then-steer pipelines: a learned concept vector is extracted from a probe and injected via additive activation steering by adding it to a layer representation during the forward pass. The effectiveness of this pipeline hinges on estimating concept vectors that are accurate, directionally stable under ablation, and inexpensive to obtain. Motivated by these desiderata, we propose RAPTOR (Ridge-Adaptive Logistic Probe), a simple L2-regularized logistic probe whose validation-tuned ridge strength yields concept vectors from normalized weights. Across extensive experiments on instruction-tuned LLMs and human-written concept datasets, RAPTOR matches or exceeds strong baselines in accuracy while achieving competitive directional stability and substantially lower training cost; these quantitative results are supported by qualitative downstream steering demonstrations. Finally, using the Convex Gaussian Min-max Theorem (CGMT), we provide a mechanistic characterization of ridge logistic regression in an idealized Gaussian teacher-student model in the high-dimensional few-shot regime, explaining how penalty strength mediates probe accuracy and concept-vector stability and yielding structural predictions that qualitatively align with trends observed on real LLM embeddings.
PDF73February 3, 2026