Стресс-тестирование зондов для выявления обмана в больших языковых моделях: масштабирование, устойчивость и геометрия обманных представлений

Аннотация

Линейные зонды, обученные на активациях больших языковых моделей, всё чаще предлагаются в качестве метрик для обнаружения обмана, однако демонстрируют показатель AUROC выше 0.96 на чистых тестовых наборах, но резко ухудшаются при сдвиге распределения. В данной работе систематически проверяется устойчивость метрик на основе зондов на семействе моделей Gemma 3 (от 1 до 27 миллиардов параметров) с целью диагностики причин их неэффективности, а не простого документирования самого факта сбоев. Мы проверяем четыре гипотезы о кодировании обмана: (1) одно линейное направление, (2) многомерное подпространство, (3) выпуклая коническая оболочка, (4) энтропийный прокси. Наш экспериментальный план включает матрицы переноса между доменами, многомерный анализ зондов с пермутационными нулевыми базовыми линиями, тесты остаточной энтропии и оценки с дистракторами при восьми стилистических сдвигах. Мы обнаружили, что: (a) зонды достигают почти идеального показателя AUROC (>=0.998) на чистых данных, но резко ухудшаются при стилистических сдвигах; зонды, дополненные стилистическими данными, восстанавливают почти идеальное обнаружение (средний AUROC 0.979-0.983) на невидимых стилях; (b) гипотеза одного направления отвергается (k=1 даёт AUROC всего 0.61-0.80), при этом неудача переноса между доменами подтверждена как обусловленная геометрическими факторами, а не несоответствием слоёв; (c) гипотеза энтропийного прокси отвергается (максимальное |ρ|=0.454, максимальное Δ-AUROC после остаточной энтропии =0.004); (d) обман не образует значимого линейного подпространства (k*=0 для каждого домена), однако многомерные зонды (k>=5) восстанавливают сигнал за счёт распределённых подпороговых признаков. Хрупкость зондов отражает узость распределения, а не архитектурное ограничение: зонды, дополненные стилистическими данными, восстанавливают почти идеальное обнаружение как для моделей с 4, так и с 27 миллиардами параметров, что устанавливает, что паттерн обратного масштабирования является артефактом обучающего распределения, а не подлинным явлением, зависящим от масштаба.

English

Linear probes trained on LLM activations are increasingly proposed as deception-detection metrics, yet report AUROC exceeding 0.96 on clean benchmarks while collapsing under distributional shift. This paper systematically pressure-tests probe-based metrics across the Gemma 3 model family (1B-27B parameters), diagnosing why they fail rather than merely documenting that they fail. We test four hypotheses about deception encoding: (1) single linear direction, (2) multi-dimensional subspace, (3) convex conic hull, (4) entropy proxy. Our design includes cross-domain transfer matrices, multi-dimensional probe analysis with permutation null baselines, entropy-residualization tests, and distractor evaluations across 8 stylistic shifts. We find that: (a) probes achieve near-perfect AUROC (>=0.998) on clean data but collapse under stylistic shifts; style-augmented probes recover near-perfect detection (mean AUROC 0.979-0.983) on unseen styles; (b) the single-direction hypothesis is rejected (k=1 captures only 0.61-0.80 AUROC), with cross-domain transfer failure confirmed as geometric rather than layer-mismatch-driven; (c) the entropy-proxy hypothesis is rejected (max |rho|=0.454, max Delta-AUROC after residualization=0.004); and (d) deception does not form a significant linear subspace (per-domain k*=0), yet multi-dimensional probes (k>=5) recover the signal through distributed sub-threshold features. Probe fragility reflects distributional narrowness rather than an architectural limitation: style-augmented probes recover near-perfect detection at both 4B and 27B, establishing that the inverse scaling pattern is a training-distribution artifact rather than a genuine scale-dependent phenomenon.