Orienter le biais conceptuel via l'activation du sous-espace latent des Transformers
Steering Conceptual Bias via Transformer Latent-Subspace Activation
June 23, 2025
Auteurs: Vansh Sharma, Venkat Raman
cs.AI
Résumé
Ce travail examine si l'activation de sous-espaces latents dans les modèles de langage (LLMs) peut orienter la génération de code scientifique vers un langage de programmation spécifique. Cinq LLMs causaux ont d'abord été évalués sur des prompts de codage scientifique pour quantifier leur biais de base parmi quatre langages de programmation. Une méthode statique d'attribution neuronale, perturbant le poids MLP le plus activé pour un token C++ ou CPP, s'est avérée fragile et a montré une généralisation limitée à travers les styles de prompts et les échelles de modèles. Pour surmonter ces limitations, un cadre d'activation adaptative raffiné par gradient (G-ACT) a été développé : les différences d'activation par prompt sont regroupées en un petit ensemble de directions d'orientation, et des sondes légères par couche sont entraînées et affinées en ligne pour sélectionner le vecteur d'orientation approprié. Dans LLaMA-3.2 3B, cette approche oriente de manière fiable la génération vers le langage CPP en augmentant la précision moyenne de classification des sondes de 15 % et en améliorant la précision de classification des sondes des premières couches (0-6) de 61,5 % par rapport au cadre ACT standard. Pour LLaMA-3.3 70B, où les signaux des têtes d'attention deviennent plus diffus, des injections ciblées aux couches clés améliorent encore la sélection du langage. Bien que le sondage par couche introduise une surcharge d'inférence modeste, il reste pratique en orientant seulement un sous-ensemble de couches et permet un comportement reproductible du modèle. Ces résultats démontrent un mécanisme scalable, interprétable et efficace pour le contrôle au niveau conceptuel des systèmes agentiques pratiques.
English
This work examines whether activating latent subspaces in language models
(LLMs) can steer scientific code generation toward a specific programming
language. Five causal LLMs were first evaluated on scientific coding prompts to
quantify their baseline bias among four programming languages. A static
neuron-attribution method, perturbing the highest activated MLP weight for a
C++ or CPP token, proved brittle and exhibited limited generalization across
prompt styles and model scales. To address these limitations, a
gradient-refined adaptive activation steering framework (G-ACT) was developed:
per-prompt activation differences are clustered into a small set of steering
directions, and lightweight per-layer probes are trained and refined online to
select the appropriate steering vector. In LLaMA-3.2 3B, this approach reliably
biases generation towards the CPP language by increasing the average probe
classification accuracy by 15% and the early layers (0-6) improving the probe
classification accuracy by 61.5% compared to the standard ACT framework. For
LLaMA-3.3 70B, where attention-head signals become more diffuse, targeted
injections at key layers still improve language selection. Although per-layer
probing introduces a modest inference overhead, it remains practical by
steering only a subset of layers and enables reproducible model behavior. These
results demonstrate a scalable, interpretable and efficient mechanism for
concept-level control for practical agentic systems.