RAPTOR: Гребневые адаптивные логистические пробы
RAPTOR: Ridge-Adaptive Logistic Probes
January 29, 2026
Авторы: Ziqi Gao, Yaotian Zhu, Qingcheng Zeng, Xu Zhao, Ziqing Wang, Feng Ruan, Kaize Ding
cs.AI
Аннотация
Метод зондирования исследует, какая информация закодирована в замороженных представлениях слоев большой языковой модели (LLM), путем обучения легковесного предсказателя поверх них. Помимо анализа, зонды часто используются операционно в конвейерах "зондирование-управление": извлеченный вектор концепции добавляется к представлению слоя во время прямого прохода с помощью аддитивного управления активациями. Эффективность этого подхода зависит от оценки векторов концепций, которые являются точными, стабильными по направлению при абляции и недорогими в получении. Руководствуясь этими требованиями, мы предлагаем RAPTOR (Ridge-Adaptive Logistic Probe) — простой L2-регуляризованный логистический зонд, у которого подобранная по валидации сила регуляризации риджа дает векторы концепций из нормализованных весов. В обширных экспериментах на инструктивно-обученных LLM и наборах данных с концепциями, написанными человеком, RAPTOR соответствует или превосходит сильные базовые методы по точности, одновременно демонстрируя конкурентную стабильность направления и существенно более низкую стоимость обучения; эти количественные результаты подтверждаются качественными демонстрациями последующего управления. Наконец, используя теорему о выпуклой гауссовской минимаксной проблеме (Convex Gaussian Min-max Theorem, CGMT), мы даем механистическую характеристику ридж-логистической регрессии в идеализированной гауссовской модели "учитель-ученик" в высокоразмерном режиме с малым числом примеров, объясняя, как сила штрафа опосредует точность зонда и стабильность вектора концепции, и получая структурные предсказания, которые качественно согласуются с тенденциями, наблюдаемыми на реальных эмбеддингах LLM.
English
Probing studies what information is encoded in a frozen LLM's layer representations by training a lightweight predictor on top of them. Beyond analysis, probes are often used operationally in probe-then-steer pipelines: a learned concept vector is extracted from a probe and injected via additive activation steering by adding it to a layer representation during the forward pass. The effectiveness of this pipeline hinges on estimating concept vectors that are accurate, directionally stable under ablation, and inexpensive to obtain. Motivated by these desiderata, we propose RAPTOR (Ridge-Adaptive Logistic Probe), a simple L2-regularized logistic probe whose validation-tuned ridge strength yields concept vectors from normalized weights. Across extensive experiments on instruction-tuned LLMs and human-written concept datasets, RAPTOR matches or exceeds strong baselines in accuracy while achieving competitive directional stability and substantially lower training cost; these quantitative results are supported by qualitative downstream steering demonstrations. Finally, using the Convex Gaussian Min-max Theorem (CGMT), we provide a mechanistic characterization of ridge logistic regression in an idealized Gaussian teacher-student model in the high-dimensional few-shot regime, explaining how penalty strength mediates probe accuracy and concept-vector stability and yielding structural predictions that qualitatively align with trends observed on real LLM embeddings.