Steuerung konzeptioneller Verzerrungen durch Aktivierung des latenten Unterraums von Transformern

papers.abstract

Diese Arbeit untersucht, ob die Aktivierung latenter Unterräume in Sprachmodellen (LLMs) die Generierung von wissenschaftlichem Code in eine bestimmte Programmiersprache lenken kann. Fünf kausale LLMs wurden zunächst anhand von wissenschaftlichen Codierungsaufforderungen evaluiert, um ihre Grundlinienverzerrung zwischen vier Programmiersprachen zu quantifizieren. Eine statische Neuron-Attributionsmethode, bei der das höchstaktivierte MLP-Gewicht für ein C++- oder CPP-Token gestört wurde, erwies sich als spröde und zeigte eine begrenzte Generalisierung über verschiedene Aufforderungsstile und Modellgrößen hinweg. Um diese Einschränkungen zu überwinden, wurde ein gradientenverfeinertes adaptives Aktivierungslenkungsframework (G-ACT) entwickelt: Unterschiede in der Aktivierung pro Aufforderung werden in eine kleine Anzahl von Lenkrichtungen gruppiert, und leichtgewichtige pro-Schicht-Sonden werden online trainiert und verfeinert, um den geeigneten Lenkvektor auszuwählen. In LLaMA-3.2 3B lenkt dieser Ansatz die Generierung zuverlässig in Richtung der CPP-Sprache, indem die durchschnittliche Klassifikationsgenauigkeit der Sonden um 15 % erhöht wird und die frühen Schichten (0-6) die Klassifikationsgenauigkeit der Sonden um 61,5 % im Vergleich zum standardmäßigen ACT-Framework verbessern. Bei LLaMA-3.3 70B, wo die Signale der Aufmerksamkeitsköpfe diffuser werden, verbessern gezielte Injektionen in Schlüsselschichten dennoch die Sprachauswahl. Obwohl die pro-Schicht-Sondierung einen moderaten Inferenz-Overhead einführt, bleibt sie praktikabel, indem nur eine Teilmenge der Schichten gelenkt wird, und ermöglicht reproduzierbares Modellverhalten. Diese Ergebnisse demonstrieren einen skalierbaren, interpretierbaren und effizienten Mechanismus für die konzeptuelle Steuerung praktischer agentenbasierter Systeme.

English

This work examines whether activating latent subspaces in language models (LLMs) can steer scientific code generation toward a specific programming language. Five causal LLMs were first evaluated on scientific coding prompts to quantify their baseline bias among four programming languages. A static neuron-attribution method, perturbing the highest activated MLP weight for a C++ or CPP token, proved brittle and exhibited limited generalization across prompt styles and model scales. To address these limitations, a gradient-refined adaptive activation steering framework (G-ACT) was developed: per-prompt activation differences are clustered into a small set of steering directions, and lightweight per-layer probes are trained and refined online to select the appropriate steering vector. In LLaMA-3.2 3B, this approach reliably biases generation towards the CPP language by increasing the average probe classification accuracy by 15% and the early layers (0-6) improving the probe classification accuracy by 61.5% compared to the standard ACT framework. For LLaMA-3.3 70B, where attention-head signals become more diffuse, targeted injections at key layers still improve language selection. Although per-layer probing introduces a modest inference overhead, it remains practical by steering only a subset of layers and enables reproducible model behavior. These results demonstrate a scalable, interpretable and efficient mechanism for concept-level control for practical agentic systems.

Steuerung konzeptioneller Verzerrungen durch Aktivierung des latenten Unterraums von Transformern

Steering Conceptual Bias via Transformer Latent-Subspace Activation

papers.abstract

Support