Sturen van Conceptuele Bias via Transformer Latent-Subspace Activatie
Steering Conceptual Bias via Transformer Latent-Subspace Activation
June 23, 2025
Auteurs: Vansh Sharma, Venkat Raman
cs.AI
Samenvatting
Dit onderzoek onderzoekt of het activeren van latente deelruimtes in taalmodelen (LLM's) de generatie van wetenschappelijke code kan sturen naar een specifieke programmeertaal. Vijf causale LLM's werden eerst geëvalueerd op wetenschappelijke codeerprompts om hun basisbias te kwantificeren tussen vier programmeertalen. Een statische neuron-attributiemethode, waarbij het hoogst geactiveerde MLP-gewicht voor een C++ of CPP-token werd verstoord, bleek broos en vertoonde beperkte generalisatie over verschillende promptstijlen en modelschalen. Om deze beperkingen aan te pakken, werd een gradient-verfijnd adaptief activatiestuurraamwerk (G-ACT) ontwikkeld: per-prompt activatieverschillen worden geclusterd in een kleine set stuurrichtingen, en lichtgewicht per-laag probes worden online getraind en verfijnd om de juiste stuurvector te selecteren. In LLaMA-3.2 3B stuurt deze aanpak de generatie betrouwbaar richting de CPP-taal door de gemiddelde probeclassificatie-accuraatheid met 15% te verhogen en de vroege lagen (0-6) verbeteren de probeclassificatie-accuraatheid met 61,5% vergeleken met het standaard ACT-raamwerk. Voor LLaMA-3.3 70B, waar aandacht-kopsignalen diffuser worden, verbeteren gerichte injecties in sleutellagen nog steeds de taalselectie. Hoewel per-laag probing een bescheiden inferentie-overhead introduceert, blijft het praktisch door slechts een subset van lagen te sturen en maakt het reproduceerbaar modelgedrag mogelijk. Deze resultaten tonen een schaalbaar, interpreteerbaar en efficiënt mechanisme voor conceptniveau-controle voor praktische agentische systemen.
English
This work examines whether activating latent subspaces in language models
(LLMs) can steer scientific code generation toward a specific programming
language. Five causal LLMs were first evaluated on scientific coding prompts to
quantify their baseline bias among four programming languages. A static
neuron-attribution method, perturbing the highest activated MLP weight for a
C++ or CPP token, proved brittle and exhibited limited generalization across
prompt styles and model scales. To address these limitations, a
gradient-refined adaptive activation steering framework (G-ACT) was developed:
per-prompt activation differences are clustered into a small set of steering
directions, and lightweight per-layer probes are trained and refined online to
select the appropriate steering vector. In LLaMA-3.2 3B, this approach reliably
biases generation towards the CPP language by increasing the average probe
classification accuracy by 15% and the early layers (0-6) improving the probe
classification accuracy by 61.5% compared to the standard ACT framework. For
LLaMA-3.3 70B, where attention-head signals become more diffuse, targeted
injections at key layers still improve language selection. Although per-layer
probing introduces a modest inference overhead, it remains practical by
steering only a subset of layers and enables reproducible model behavior. These
results demonstrate a scalable, interpretable and efficient mechanism for
concept-level control for practical agentic systems.