Orienter le biais conceptuel via l'activation du sous-espace latent des Transformers

papers.abstract

Ce travail examine si l'activation de sous-espaces latents dans les modèles de langage (LLMs) peut orienter la génération de code scientifique vers un langage de programmation spécifique. Cinq LLMs causaux ont d'abord été évalués sur des prompts de codage scientifique pour quantifier leur biais de base parmi quatre langages de programmation. Une méthode statique d'attribution neuronale, perturbant le poids MLP le plus activé pour un token C++ ou CPP, s'est avérée fragile et a montré une généralisation limitée à travers les styles de prompts et les échelles de modèles. Pour surmonter ces limitations, un cadre d'activation adaptative raffiné par gradient (G-ACT) a été développé : les différences d'activation par prompt sont regroupées en un petit ensemble de directions d'orientation, et des sondes légères par couche sont entraînées et affinées en ligne pour sélectionner le vecteur d'orientation approprié. Dans LLaMA-3.2 3B, cette approche oriente de manière fiable la génération vers le langage CPP en augmentant la précision moyenne de classification des sondes de 15 % et en améliorant la précision de classification des sondes des premières couches (0-6) de 61,5 % par rapport au cadre ACT standard. Pour LLaMA-3.3 70B, où les signaux des têtes d'attention deviennent plus diffus, des injections ciblées aux couches clés améliorent encore la sélection du langage. Bien que le sondage par couche introduise une surcharge d'inférence modeste, il reste pratique en orientant seulement un sous-ensemble de couches et permet un comportement reproductible du modèle. Ces résultats démontrent un mécanisme scalable, interprétable et efficace pour le contrôle au niveau conceptuel des systèmes agentiques pratiques.

English

This work examines whether activating latent subspaces in language models (LLMs) can steer scientific code generation toward a specific programming language. Five causal LLMs were first evaluated on scientific coding prompts to quantify their baseline bias among four programming languages. A static neuron-attribution method, perturbing the highest activated MLP weight for a C++ or CPP token, proved brittle and exhibited limited generalization across prompt styles and model scales. To address these limitations, a gradient-refined adaptive activation steering framework (G-ACT) was developed: per-prompt activation differences are clustered into a small set of steering directions, and lightweight per-layer probes are trained and refined online to select the appropriate steering vector. In LLaMA-3.2 3B, this approach reliably biases generation towards the CPP language by increasing the average probe classification accuracy by 15% and the early layers (0-6) improving the probe classification accuracy by 61.5% compared to the standard ACT framework. For LLaMA-3.3 70B, where attention-head signals become more diffuse, targeted injections at key layers still improve language selection. Although per-layer probing introduces a modest inference overhead, it remains practical by steering only a subset of layers and enables reproducible model behavior. These results demonstrate a scalable, interpretable and efficient mechanism for concept-level control for practical agentic systems.

Orienter le biais conceptuel via l'activation du sous-espace latent des Transformers

Steering Conceptual Bias via Transformer Latent-Subspace Activation

papers.abstract

Support