Teste de Estresse de Sondas de Engano em LLMs: Escalabilidade, Robustez e a Geometria das Representações Enganosas

Resumo

Sondas lineares treinadas em ativações de LLMs são cada vez mais propostas como métricas de detecção de engano, mas relatam AUROC superior a 0,96 em benchmarks limpos, enquanto colapsam sob mudança distribucional. Este artigo testa sistematicamente a resistência de métricas baseadas em sondas na família de modelos Gemma 3 (1B-27B parâmetros), diagnosticando por que falham, em vez de meramente documentar que falham. Testamos quatro hipóteses sobre a codificação do engano: (1) direção linear única, (2) subespaço multidimensional, (3) invólucro cônico convexo, (4) proxy de entropia. Nosso projeto inclui matrizes de transferência entre domínios, análise de sondas multidimensionais com linhas de base nulas por permutação, testes de residualização de entropia e avaliações com distratores em 8 mudanças estilísticas. Constatamos que: (a) as sondas alcançam AUROC quase perfeito (>=0,998) em dados limpos, mas colapsam sob mudanças estilísticas; sondas aumentadas por estilo recuperam detecção quase perfeita (AUROC médio 0,979-0,983) em estilos não vistos; (b) a hipótese de direção única é rejeitada (k=1 captura apenas AUROC 0,61-0,80), com falha de transferência entre domínios confirmada como geométrica, e não impulsionada por incompatibilidade de camadas; (c) a hipótese de proxy de entropia é rejeitada (|rho| máximo=0,454, Delta-AUROC máximo após residualização=0,004); e (d) o engano não forma um subespaço linear significativo (k* por domínio=0), mas sondas multidimensionais (k>=5) recuperam o sinal por meio de características distribuídas sublimiares. A fragilidade das sondas reflete estreiteza distribucional, e não limitação arquitetural: sondas aumentadas por estilo recuperam detecção quase perfeita tanto em 4B quanto em 27B, estabelecendo que o padrão de escalonamento inverso é um artefato da distribuição de treinamento, e não um fenômeno genuíno dependente de escala.

English

Linear probes trained on LLM activations are increasingly proposed as deception-detection metrics, yet report AUROC exceeding 0.96 on clean benchmarks while collapsing under distributional shift. This paper systematically pressure-tests probe-based metrics across the Gemma 3 model family (1B-27B parameters), diagnosing why they fail rather than merely documenting that they fail. We test four hypotheses about deception encoding: (1) single linear direction, (2) multi-dimensional subspace, (3) convex conic hull, (4) entropy proxy. Our design includes cross-domain transfer matrices, multi-dimensional probe analysis with permutation null baselines, entropy-residualization tests, and distractor evaluations across 8 stylistic shifts. We find that: (a) probes achieve near-perfect AUROC (>=0.998) on clean data but collapse under stylistic shifts; style-augmented probes recover near-perfect detection (mean AUROC 0.979-0.983) on unseen styles; (b) the single-direction hypothesis is rejected (k=1 captures only 0.61-0.80 AUROC), with cross-domain transfer failure confirmed as geometric rather than layer-mismatch-driven; (c) the entropy-proxy hypothesis is rejected (max |rho|=0.454, max Delta-AUROC after residualization=0.004); and (d) deception does not form a significant linear subspace (per-domain k*=0), yet multi-dimensional probes (k>=5) recover the signal through distributed sub-threshold features. Probe fragility reflects distributional narrowness rather than an architectural limitation: style-augmented probes recover near-perfect detection at both 4B and 27B, establishing that the inverse scaling pattern is a training-distribution artifact rather than a genuine scale-dependent phenomenon.