Pruebas de Resistencia de Sondas de Engaño en LLMs: Escalamiento, Robustez y la Geometría de las Representaciones Engañosas

Resumen

Las sondas lineales entrenadas sobre activaciones de LLM se proponen cada vez más como métricas de detección de engaños, pero reportan AUROC superior a 0.96 en evaluaciones limpias mientras colapsan ante cambios distribucionales. Este artículo somete a prueba de estrés sistemática las métricas basadas en sondas en la familia de modelos Gemma 3 (1B-27B parámetros), diagnosticando por qué fallan en lugar de simplemente documentar que fallan. Evaluamos cuatro hipótesis sobre la codificación del engaño: (1) dirección lineal única, (2) subespacio multidimensional, (3) envolvente cónica convexa, (4) proxy de entropía. Nuestro diseño incluye matrices de transferencia entre dominios, análisis de sondas multidimensionales con líneas base nulas por permutación, pruebas de residualización de entropía y evaluaciones con distractores en 8 cambios estilísticos. Encontramos que: (a) las sondas logran un AUROC casi perfecto (>=0.998) en datos limpios pero colapsan ante cambios estilísticos; las sondas aumentadas con estilo recuperan una detección casi perfecta (AUROC medio 0.979-0.983) en estilos no vistos; (b) se rechaza la hipótesis de dirección única (k=1 captura solo 0.61-0.80 AUROC), confirmándose que la falla en la transferencia entre dominios es geométrica, no impulsada por desajuste de capas; (c) se rechaza la hipótesis de proxy de entropía (máx |rho|=0.454, máx Delta-AUROC tras residualización=0.004); y (d) el engaño no forma un subespacio lineal significativo (k*=0 por dominio), pero las sondas multidimensionales (k>=5) recuperan la señal mediante características distribuidas por debajo del umbral. La fragilidad de las sondas refleja estrechez distribucional, no una limitación arquitectónica: las sondas aumentadas con estilo recuperan una detección casi perfecta tanto en 4B como en 27B, estableciendo que el patrón de escala inversa es un artefacto de la distribución de entrenamiento, no un fenómeno genuinamente dependiente de la escala.

English

Linear probes trained on LLM activations are increasingly proposed as deception-detection metrics, yet report AUROC exceeding 0.96 on clean benchmarks while collapsing under distributional shift. This paper systematically pressure-tests probe-based metrics across the Gemma 3 model family (1B-27B parameters), diagnosing why they fail rather than merely documenting that they fail. We test four hypotheses about deception encoding: (1) single linear direction, (2) multi-dimensional subspace, (3) convex conic hull, (4) entropy proxy. Our design includes cross-domain transfer matrices, multi-dimensional probe analysis with permutation null baselines, entropy-residualization tests, and distractor evaluations across 8 stylistic shifts. We find that: (a) probes achieve near-perfect AUROC (>=0.998) on clean data but collapse under stylistic shifts; style-augmented probes recover near-perfect detection (mean AUROC 0.979-0.983) on unseen styles; (b) the single-direction hypothesis is rejected (k=1 captures only 0.61-0.80 AUROC), with cross-domain transfer failure confirmed as geometric rather than layer-mismatch-driven; (c) the entropy-proxy hypothesis is rejected (max |rho|=0.454, max Delta-AUROC after residualization=0.004); and (d) deception does not form a significant linear subspace (per-domain k*=0), yet multi-dimensional probes (k>=5) recover the signal through distributed sub-threshold features. Probe fragility reflects distributional narrowness rather than an architectural limitation: style-augmented probes recover near-perfect detection at both 4B and 27B, establishing that the inverse scaling pattern is a training-distribution artifact rather than a genuine scale-dependent phenomenon.