Drucktest von Täuschungssonden in LLMs: Skalierung, Robustheit und die Geometrie täuschender Repräsentationen

Zusammenfassung

Lineare Sonden, die auf LLM-Aktivierungen trainiert werden, werden zunehmend als Metriken zur Täuschungserkennung vorgeschlagen, doch berichten sie von AUROC-Werten über 0,96 auf sauberen Benchmarks, während sie unter Verteilungsverschiebung zusammenbrechen. Diese Arbeit führt systematische Belastungstests sondenbasierter Metriken über die Gemma-3-Modellfamilie (1B-27B Parameter) durch, wobei sie diagnostiziert, warum sie versagen, anstatt lediglich ihr Versagen zu dokumentieren. Wir testen vier Hypothesen zur Täuschungskodierung: (1) einzelne lineare Richtung, (2) mehrdimensionaler Unterraum, (3) konvexer Kegelmantel, (4) Entropie-Proxi. Unser Versuchsdesign umfasst bereichsübergreifende Transfermatrizen, mehrdimensionale Sondenanalysen mit Permutations-Nullbasen, Entropie-Residualisierungstests und Distraktor-Evaluierungen über 8 Stilwechsel hinweg. Wir stellen fest: (a) Sonden erzielen nahezu perfekte AUROC-Werte (>=0,998) auf sauberen Daten, brechen jedoch unter Stilwechseln ein; stil-augmentierte Sonden stellen eine nahezu perfekte Erkennung auf unbekannten Stilen wieder her (mittlerer AUROC 0,979-0,983); (b) die Einzelrichtungshypothese wird verworfen (k=1 erfasst nur 0,61-0,80 AUROC), wobei das bereichsübergreifende Transferversagen als geometrisch und nicht durch Schichtfehlanpassung verursacht bestätigt wird; (c) die Entropie-Proxi-Hypothese wird verworfen (max |rho|=0,454, max Delta-AUROC nach Residualisierung=0,004); und (d) Täuschung bildet keinen signifikanten linearen Unterraum (k*=0 pro Bereich), dennoch gewinnen mehrdimensionale Sonden (k>=5) das Signal durch verteilte subschwellige Merkmale zurück. Die Fragilität der Sonden spiegelt eine Verteilungsenge wider, keine architektonische Einschränkung: stil-augmentierte Sonden stellen eine nahezu perfekte Erkennung sowohl bei 4B als auch bei 27B wieder her, was belegt, dass das inverse Skalierungsmuster ein Trainingsverteilungsartefakt und kein echtes skalenabhängiges Phänomen ist.

English

Linear probes trained on LLM activations are increasingly proposed as deception-detection metrics, yet report AUROC exceeding 0.96 on clean benchmarks while collapsing under distributional shift. This paper systematically pressure-tests probe-based metrics across the Gemma 3 model family (1B-27B parameters), diagnosing why they fail rather than merely documenting that they fail. We test four hypotheses about deception encoding: (1) single linear direction, (2) multi-dimensional subspace, (3) convex conic hull, (4) entropy proxy. Our design includes cross-domain transfer matrices, multi-dimensional probe analysis with permutation null baselines, entropy-residualization tests, and distractor evaluations across 8 stylistic shifts. We find that: (a) probes achieve near-perfect AUROC (>=0.998) on clean data but collapse under stylistic shifts; style-augmented probes recover near-perfect detection (mean AUROC 0.979-0.983) on unseen styles; (b) the single-direction hypothesis is rejected (k=1 captures only 0.61-0.80 AUROC), with cross-domain transfer failure confirmed as geometric rather than layer-mismatch-driven; (c) the entropy-proxy hypothesis is rejected (max |rho|=0.454, max Delta-AUROC after residualization=0.004); and (d) deception does not form a significant linear subspace (per-domain k*=0), yet multi-dimensional probes (k>=5) recover the signal through distributed sub-threshold features. Probe fragility reflects distributional narrowness rather than an architectural limitation: style-augmented probes recover near-perfect detection at both 4B and 27B, establishing that the inverse scaling pattern is a training-distribution artifact rather than a genuine scale-dependent phenomenon.