Steuerung konzeptioneller Verzerrungen durch Aktivierung des latenten Unterraums von Transformern
Steering Conceptual Bias via Transformer Latent-Subspace Activation
June 23, 2025
Autoren: Vansh Sharma, Venkat Raman
cs.AI
Zusammenfassung
Diese Arbeit untersucht, ob die Aktivierung latenter Unterräume in Sprachmodellen (LLMs) die Generierung von wissenschaftlichem Code in eine bestimmte Programmiersprache lenken kann. Fünf kausale LLMs wurden zunächst anhand von wissenschaftlichen Codierungsaufforderungen evaluiert, um ihre Grundlinienverzerrung zwischen vier Programmiersprachen zu quantifizieren. Eine statische Neuron-Attributionsmethode, bei der das höchstaktivierte MLP-Gewicht für ein C++- oder CPP-Token gestört wurde, erwies sich als spröde und zeigte eine begrenzte Generalisierung über verschiedene Aufforderungsstile und Modellgrößen hinweg. Um diese Einschränkungen zu überwinden, wurde ein gradientenverfeinertes adaptives Aktivierungslenkungsframework (G-ACT) entwickelt: Unterschiede in der Aktivierung pro Aufforderung werden in eine kleine Anzahl von Lenkrichtungen gruppiert, und leichtgewichtige pro-Schicht-Sonden werden online trainiert und verfeinert, um den geeigneten Lenkvektor auszuwählen. In LLaMA-3.2 3B lenkt dieser Ansatz die Generierung zuverlässig in Richtung der CPP-Sprache, indem die durchschnittliche Klassifikationsgenauigkeit der Sonden um 15 % erhöht wird und die frühen Schichten (0-6) die Klassifikationsgenauigkeit der Sonden um 61,5 % im Vergleich zum standardmäßigen ACT-Framework verbessern. Bei LLaMA-3.3 70B, wo die Signale der Aufmerksamkeitsköpfe diffuser werden, verbessern gezielte Injektionen in Schlüsselschichten dennoch die Sprachauswahl. Obwohl die pro-Schicht-Sondierung einen moderaten Inferenz-Overhead einführt, bleibt sie praktikabel, indem nur eine Teilmenge der Schichten gelenkt wird, und ermöglicht reproduzierbares Modellverhalten. Diese Ergebnisse demonstrieren einen skalierbaren, interpretierbaren und effizienten Mechanismus für die konzeptuelle Steuerung praktischer agentenbasierter Systeme.
English
This work examines whether activating latent subspaces in language models
(LLMs) can steer scientific code generation toward a specific programming
language. Five causal LLMs were first evaluated on scientific coding prompts to
quantify their baseline bias among four programming languages. A static
neuron-attribution method, perturbing the highest activated MLP weight for a
C++ or CPP token, proved brittle and exhibited limited generalization across
prompt styles and model scales. To address these limitations, a
gradient-refined adaptive activation steering framework (G-ACT) was developed:
per-prompt activation differences are clustered into a small set of steering
directions, and lightweight per-layer probes are trained and refined online to
select the appropriate steering vector. In LLaMA-3.2 3B, this approach reliably
biases generation towards the CPP language by increasing the average probe
classification accuracy by 15% and the early layers (0-6) improving the probe
classification accuracy by 61.5% compared to the standard ACT framework. For
LLaMA-3.3 70B, where attention-head signals become more diffuse, targeted
injections at key layers still improve language selection. Although per-layer
probing introduces a modest inference overhead, it remains practical by
steering only a subset of layers and enables reproducible model behavior. These
results demonstrate a scalable, interpretable and efficient mechanism for
concept-level control for practical agentic systems.