Control del Sesgo Conceptual mediante la Activación del Subespacio Latente en Transformers

Resumen

Este trabajo examina si la activación de subespacios latentes en modelos de lenguaje (LLMs) puede dirigir la generación de código científico hacia un lenguaje de programación específico. Primero se evaluaron cinco LLMs causales en tareas de codificación científica para cuantificar su sesgo inicial entre cuatro lenguajes de programación. Un método estático de atribución de neuronas, que perturba el peso MLP más activado para un token de C++ o CPP, resultó frágil y mostró una generalización limitada entre estilos de prompts y escalas de modelos. Para abordar estas limitaciones, se desarrolló un marco de activación adaptativa refinado por gradientes (G-ACT): las diferencias de activación por prompt se agrupan en un pequeño conjunto de direcciones de guía, y se entrenan y refinan en línea sondas ligeras por capa para seleccionar el vector de guía adecuado. En LLaMA-3.2 3B, este enfoque sesga de manera confiable la generación hacia el lenguaje CPP, aumentando la precisión promedio de clasificación de las sondas en un 15% y mejorando la precisión de clasificación de las sondas en las capas iniciales (0-6) en un 61.5% en comparación con el marco ACT estándar. Para LLaMA-3.3 70B, donde las señales de las cabezas de atención se vuelven más difusas, las inyecciones dirigidas en capas clave aún mejoran la selección del lenguaje. Aunque el sondeo por capa introduce un modesto sobrecosto en la inferencia, sigue siendo práctico al guiar solo un subconjunto de capas y permite un comportamiento reproducible del modelo. Estos resultados demuestran un mecanismo escalable, interpretable y eficiente para el control a nivel de concepto en sistemas agentes prácticos.

English

This work examines whether activating latent subspaces in language models (LLMs) can steer scientific code generation toward a specific programming language. Five causal LLMs were first evaluated on scientific coding prompts to quantify their baseline bias among four programming languages. A static neuron-attribution method, perturbing the highest activated MLP weight for a C++ or CPP token, proved brittle and exhibited limited generalization across prompt styles and model scales. To address these limitations, a gradient-refined adaptive activation steering framework (G-ACT) was developed: per-prompt activation differences are clustered into a small set of steering directions, and lightweight per-layer probes are trained and refined online to select the appropriate steering vector. In LLaMA-3.2 3B, this approach reliably biases generation towards the CPP language by increasing the average probe classification accuracy by 15% and the early layers (0-6) improving the probe classification accuracy by 61.5% compared to the standard ACT framework. For LLaMA-3.3 70B, where attention-head signals become more diffuse, targeted injections at key layers still improve language selection. Although per-layer probing introduces a modest inference overhead, it remains practical by steering only a subset of layers and enables reproducible model behavior. These results demonstrate a scalable, interpretable and efficient mechanism for concept-level control for practical agentic systems.

Control del Sesgo Conceptual mediante la Activación del Subespacio Latente en Transformers

Steering Conceptual Bias via Transformer Latent-Subspace Activation

Resumen

Support