RAPTOR: Sonde Logistiche ad Adattamento di Cresta

Abstract

Gli studi di probing analizzano quali informazioni sono codificate nelle rappresentazioni stratificate di un LLM congelato, addestrando un predittore leggero su di esse. Oltre all'analisi, le probe sono spesso utilizzate operativamente nelle pipeline di tipo "probe-then-steer": un vettore concettuale appreso viene estratto da una probe e iniettato tramite steering additivo delle attivazioni, aggiungendolo a una rappresentazione stratificata durante il forward pass. L'efficacia di questa pipeline dipende dalla stima di vettori concettuali che siano accurati, directionalmente stabili sotto ablazione e economici da ottenere. Motivati da questi requisiti, proponiamo RAPTOR (Ridge-Adaptive Logistic Probe), una semplice probe logistica con regolarizzazione L2 la cui forza di ridge ottimizzata su validation produce vettori concettuali dai pesi normalizzati. In un'ampia serie di esperimenti su LLM addestrati per seguire istruzioni e dataset concettuali scritti da umani, RAPTOR eguaglia o supera baseline robuste in accuratezza, raggiungendo al contempo una stabilità direzionale competitiva e un costo di addestramento sostanzialmente inferiore; questi risultati quantitativi sono supportati da dimostrazioni qualitative di steering a valle. Infine, utilizzando il Teorema del Min-max Gaussiano Convesso (CGMT), forniamo una caratterizzazione meccanicistica della regressione logistica ridge in un modello ideale Gaussiano insegnante-studente nel regime ad alta dimensionalità e pochi esempi, spiegando come la forza della penalizzazione media l'accuratezza della probe e la stabilità del vettore concettuale, e producendo previsioni strutturali che si allineano qualitativamente con le tendenze osservate sugli embedding reali di LLM.

English

Probing studies what information is encoded in a frozen LLM's layer representations by training a lightweight predictor on top of them. Beyond analysis, probes are often used operationally in probe-then-steer pipelines: a learned concept vector is extracted from a probe and injected via additive activation steering by adding it to a layer representation during the forward pass. The effectiveness of this pipeline hinges on estimating concept vectors that are accurate, directionally stable under ablation, and inexpensive to obtain. Motivated by these desiderata, we propose RAPTOR (Ridge-Adaptive Logistic Probe), a simple L2-regularized logistic probe whose validation-tuned ridge strength yields concept vectors from normalized weights. Across extensive experiments on instruction-tuned LLMs and human-written concept datasets, RAPTOR matches or exceeds strong baselines in accuracy while achieving competitive directional stability and substantially lower training cost; these quantitative results are supported by qualitative downstream steering demonstrations. Finally, using the Convex Gaussian Min-max Theorem (CGMT), we provide a mechanistic characterization of ridge logistic regression in an idealized Gaussian teacher-student model in the high-dimensional few-shot regime, explaining how penalty strength mediates probe accuracy and concept-vector stability and yielding structural predictions that qualitatively align with trends observed on real LLM embeddings.

RAPTOR: Sonde Logistiche ad Adattamento di Cresta

RAPTOR: Ridge-Adaptive Logistic Probes

Abstract

Support