Tests de Résistance des Sondes de Tromperie dans les LLMs : Mise à l'Échelle, Robustesse et Géométrie des Représentations Trompeuses

Résumé

Des sondes linéaires entraînées sur les activations de LLM sont de plus en plus proposées comme métriques de détection de la tromperie, mais elles rapportent un AUROC supérieur à 0,96 sur des benchmarks propres tout en s'effondrant sous un décalage distributionnel. Cet article soumet systématiquement les métriques basées sur les sondes à des tests de contrainte à travers la famille de modèles Gemma 3 (1B-27B paramètres), en diagnostiquant pourquoi elles échouent plutôt qu'en se contentant de documenter cet échec. Nous testons quatre hypothèses sur le codage de la tromperie : (1) direction linéaire unique, (2) sous-espace multidimensionnel, (3) enveloppe conique convexe, (4) proxy d'entropie. Notre conception inclut des matrices de transfert inter-domaines, une analyse multidimensionnelle des sondes avec des références nulles par permutation, des tests de résidualisation d'entropie, et des évaluations de distracteurs sur 8 changements stylistiques. Nous constatons que : (a) les sondes atteignent un AUROC quasi parfait (>=0,998) sur des données propres mais s'effondrent sous des changements stylistiques ; les sondes augmentées par le style retrouvent une détection quasi parfaite (AUROC moyen 0,979-0,983) sur des styles non vus ; (b) l'hypothèse de la direction unique est rejetée (k=1 ne capture qu'un AUROC de 0,61-0,80), l'échec du transfert inter-domaines étant confirmé comme géométrique plutôt que dû à un décalage de couches ; (c) l'hypothèse du proxy d'entropie est rejetée (|rho| max=0,454, Delta-AUROC max après résidualisation=0,004) ; et (d) la tromperie ne forme pas un sous-espace linéaire significatif (k*=0 par domaine), mais les sondes multidimensionnelles (k>=5) récupèrent le signal grâce à des caractéristiques distribuées sous le seuil. La fragilité des sondes reflète une étroitesse distributionnelle plutôt qu'une limitation architecturale : les sondes augmentées par le style retrouvent une détection quasi parfaite à la fois à 4B et à 27B, établissant que le motif d'échelle inverse est un artéfact de distribution d'entraînement plutôt qu'un phénomène véritablement dépendant de l'échelle.

English

Linear probes trained on LLM activations are increasingly proposed as deception-detection metrics, yet report AUROC exceeding 0.96 on clean benchmarks while collapsing under distributional shift. This paper systematically pressure-tests probe-based metrics across the Gemma 3 model family (1B-27B parameters), diagnosing why they fail rather than merely documenting that they fail. We test four hypotheses about deception encoding: (1) single linear direction, (2) multi-dimensional subspace, (3) convex conic hull, (4) entropy proxy. Our design includes cross-domain transfer matrices, multi-dimensional probe analysis with permutation null baselines, entropy-residualization tests, and distractor evaluations across 8 stylistic shifts. We find that: (a) probes achieve near-perfect AUROC (>=0.998) on clean data but collapse under stylistic shifts; style-augmented probes recover near-perfect detection (mean AUROC 0.979-0.983) on unseen styles; (b) the single-direction hypothesis is rejected (k=1 captures only 0.61-0.80 AUROC), with cross-domain transfer failure confirmed as geometric rather than layer-mismatch-driven; (c) the entropy-proxy hypothesis is rejected (max |rho|=0.454, max Delta-AUROC after residualization=0.004); and (d) deception does not form a significant linear subspace (per-domain k*=0), yet multi-dimensional probes (k>=5) recover the signal through distributed sub-threshold features. Probe fragility reflects distributional narrowness rather than an architectural limitation: style-augmented probes recover near-perfect detection at both 4B and 27B, establishing that the inverse scaling pattern is a training-distribution artifact rather than a genuine scale-dependent phenomenon.