Control del Sesgo Conceptual mediante la Activación del Subespacio Latente en Transformers
Steering Conceptual Bias via Transformer Latent-Subspace Activation
June 23, 2025
Autores: Vansh Sharma, Venkat Raman
cs.AI
Resumen
Este trabajo examina si la activación de subespacios latentes en modelos de lenguaje (LLMs) puede dirigir la generación de código científico hacia un lenguaje de programación específico. Primero se evaluaron cinco LLMs causales en tareas de codificación científica para cuantificar su sesgo inicial entre cuatro lenguajes de programación. Un método estático de atribución de neuronas, que perturba el peso MLP más activado para un token de C++ o CPP, resultó frágil y mostró una generalización limitada entre estilos de prompts y escalas de modelos. Para abordar estas limitaciones, se desarrolló un marco de activación adaptativa refinado por gradientes (G-ACT): las diferencias de activación por prompt se agrupan en un pequeño conjunto de direcciones de guía, y se entrenan y refinan en línea sondas ligeras por capa para seleccionar el vector de guía adecuado. En LLaMA-3.2 3B, este enfoque sesga de manera confiable la generación hacia el lenguaje CPP, aumentando la precisión promedio de clasificación de las sondas en un 15% y mejorando la precisión de clasificación de las sondas en las capas iniciales (0-6) en un 61.5% en comparación con el marco ACT estándar. Para LLaMA-3.3 70B, donde las señales de las cabezas de atención se vuelven más difusas, las inyecciones dirigidas en capas clave aún mejoran la selección del lenguaje. Aunque el sondeo por capa introduce un modesto sobrecosto en la inferencia, sigue siendo práctico al guiar solo un subconjunto de capas y permite un comportamiento reproducible del modelo. Estos resultados demuestran un mecanismo escalable, interpretable y eficiente para el control a nivel de concepto en sistemas agentes prácticos.
English
This work examines whether activating latent subspaces in language models
(LLMs) can steer scientific code generation toward a specific programming
language. Five causal LLMs were first evaluated on scientific coding prompts to
quantify their baseline bias among four programming languages. A static
neuron-attribution method, perturbing the highest activated MLP weight for a
C++ or CPP token, proved brittle and exhibited limited generalization across
prompt styles and model scales. To address these limitations, a
gradient-refined adaptive activation steering framework (G-ACT) was developed:
per-prompt activation differences are clustered into a small set of steering
directions, and lightweight per-layer probes are trained and refined online to
select the appropriate steering vector. In LLaMA-3.2 3B, this approach reliably
biases generation towards the CPP language by increasing the average probe
classification accuracy by 15% and the early layers (0-6) improving the probe
classification accuracy by 61.5% compared to the standard ACT framework. For
LLaMA-3.3 70B, where attention-head signals become more diffuse, targeted
injections at key layers still improve language selection. Although per-layer
probing introduces a modest inference overhead, it remains practical by
steering only a subset of layers and enables reproducible model behavior. These
results demonstrate a scalable, interpretable and efficient mechanism for
concept-level control for practical agentic systems.