Controllare il Bias Concettuale tramite Attivazione del Sottospazio Latente nei Trasformatori
Steering Conceptual Bias via Transformer Latent-Subspace Activation
June 23, 2025
Autori: Vansh Sharma, Venkat Raman
cs.AI
Abstract
Questo lavoro esamina se l'attivazione di sottospazi latenti nei modelli linguistici (LLM) possa indirizzare la generazione di codice scientifico verso un linguaggio di programmazione specifico. Cinque LLM causali sono stati inizialmente valutati su prompt di codifica scientifica per quantificare il loro bias di base tra quattro linguaggi di programmazione. Un metodo statico di attribuzione dei neuroni, che perturbava il peso MLP più attivato per un token C++ o CPP, si è rivelato fragile e ha mostrato una generalizzazione limitata tra stili di prompt e scale del modello. Per affrontare queste limitazioni, è stato sviluppato un framework di attivazione adattiva raffinato con gradienti (G-ACT): le differenze di attivazione per ogni prompt vengono raggruppate in un piccolo insieme di direzioni di indirizzamento, e sonde leggere per ogni strato vengono addestrate e raffinate online per selezionare il vettore di indirizzamento appropriato. In LLaMA-3.2 3B, questo approccio polarizza in modo affidabile la generazione verso il linguaggio CPP aumentando l'accuratezza media della classificazione delle sonde del 15% e migliorando l'accuratezza della classificazione delle sonde negli strati iniziali (0-6) del 61,5% rispetto al framework ACT standard. Per LLaMA-3.3 70B, dove i segnali delle teste di attenzione diventano più diffusi, iniezioni mirate negli strati chiave migliorano comunque la selezione del linguaggio. Sebbene il probing per ogni strato introduca un modesto sovraccarico di inferenza, rimane pratico indirizzando solo un sottoinsieme di strati e consente un comportamento del modello riproducibile. Questi risultati dimostrano un meccanismo scalabile, interpretabile ed efficiente per il controllo a livello di concetto per sistemi agentici pratici.
English
This work examines whether activating latent subspaces in language models
(LLMs) can steer scientific code generation toward a specific programming
language. Five causal LLMs were first evaluated on scientific coding prompts to
quantify their baseline bias among four programming languages. A static
neuron-attribution method, perturbing the highest activated MLP weight for a
C++ or CPP token, proved brittle and exhibited limited generalization across
prompt styles and model scales. To address these limitations, a
gradient-refined adaptive activation steering framework (G-ACT) was developed:
per-prompt activation differences are clustered into a small set of steering
directions, and lightweight per-layer probes are trained and refined online to
select the appropriate steering vector. In LLaMA-3.2 3B, this approach reliably
biases generation towards the CPP language by increasing the average probe
classification accuracy by 15% and the early layers (0-6) improving the probe
classification accuracy by 61.5% compared to the standard ACT framework. For
LLaMA-3.3 70B, where attention-head signals become more diffuse, targeted
injections at key layers still improve language selection. Although per-layer
probing introduces a modest inference overhead, it remains practical by
steering only a subset of layers and enables reproducible model behavior. These
results demonstrate a scalable, interpretable and efficient mechanism for
concept-level control for practical agentic systems.