ChatPaper.aiChatPaper

RAPTOR: 능선 적응형 로지스틱 프로브

RAPTOR: Ridge-Adaptive Logistic Probes

January 29, 2026
저자: Ziqi Gao, Yaotian Zhu, Qingcheng Zeng, Xu Zhao, Ziqing Wang, Feng Ruan, Kaize Ding
cs.AI

초록

프로빙(Probing)은 고정된 LLM의 레이어 표현에 어떤 정보가 인코딩되었는지를 경량 예측기를 그 위에 학습시켜 탐구합니다. 분석을 넘어, 프로브는 종종 프로브-후-조정(probe-then-steer) 파이프라인에서 운영적으로 사용됩니다: 학습된 개념 벡터를 프로브로부터 추출하고, 순전파 과정에서 레이어 표현에 이를 가산하여 가법 활성화 조정(additive activation steering) 방식으로 주입합니다. 이 파이프라인의 효과성은 정확하고, 제거(ablation) 상황에서 방향적으로 안정적이며, 획득 비용이 저렴한 개념 벡터를 추정하는 데 달려 있습니다. 이러한 요구 조건에 동기를 부여받아, 우리는 RAPTOR(Ridge-Adaptive Logistic Probe)를 제안합니다. 이는 검증 데이터를 통해 조정된 L2 정칙화 강도로 정규화된 가중치로부터 개념 벡터를 생성하는 간단한 L2 정칙화 로지스틱 프로브입니다. 지시어 최적화(instruction-tuned)된 LLM과 인간이 작성한 개념 데이터셋에 대한 광범위한 실험에서 RAPTOR는 정확도 측면에서 강력한 기준선을 따라가거나 능가하면서도 경쟁력 있는 방향 안정성과 상당히 낮은 학습 비용을 달성했습니다. 이러한 정량적 결과는 정성적 하류 조정(downstream steering) 데모로 뒷받침됩니다. 마지막으로, Convex Gaussian Min-max Theorem(CGMT)을 사용하여 고차원 소수 샘플(few-shot) 환경에서 이상화된 가우시안 교사-학생 모델(teacher-student model) 내에서 릿지 로지스틱 회귀의 기계론적 특성을 규명하고, 정칙화 강도가 프로브 정확도와 개념 벡터 안정성을 어떻게 매개하는지 설명하며, 실제 LLM 임베딩에서 관찰된 경향성과 정성적으로 일치하는 구조적 예측을 도출합니다.
English
Probing studies what information is encoded in a frozen LLM's layer representations by training a lightweight predictor on top of them. Beyond analysis, probes are often used operationally in probe-then-steer pipelines: a learned concept vector is extracted from a probe and injected via additive activation steering by adding it to a layer representation during the forward pass. The effectiveness of this pipeline hinges on estimating concept vectors that are accurate, directionally stable under ablation, and inexpensive to obtain. Motivated by these desiderata, we propose RAPTOR (Ridge-Adaptive Logistic Probe), a simple L2-regularized logistic probe whose validation-tuned ridge strength yields concept vectors from normalized weights. Across extensive experiments on instruction-tuned LLMs and human-written concept datasets, RAPTOR matches or exceeds strong baselines in accuracy while achieving competitive directional stability and substantially lower training cost; these quantitative results are supported by qualitative downstream steering demonstrations. Finally, using the Convex Gaussian Min-max Theorem (CGMT), we provide a mechanistic characterization of ridge logistic regression in an idealized Gaussian teacher-student model in the high-dimensional few-shot regime, explaining how penalty strength mediates probe accuracy and concept-vector stability and yielding structural predictions that qualitatively align with trends observed on real LLM embeddings.
PDF73February 3, 2026