Управление концептуальным смещением через активацию латентного подпространства трансформера
Steering Conceptual Bias via Transformer Latent-Subspace Activation
June 23, 2025
Авторы: Vansh Sharma, Venkat Raman
cs.AI
Аннотация
В данной работе исследуется, может ли активация скрытых подпространств в языковых моделях (LLM) направлять генерацию научного кода в сторону конкретного языка программирования. Сначала пять каузальных LLM были протестированы на научных кодовых запросах, чтобы количественно оценить их базовую предвзятость среди четырех языков программирования. Статический метод атрибуции нейронов, заключающийся в возмущении наиболее активированного веса MLP для токена C++ или CPP, оказался ненадежным и показал ограниченную обобщаемость для различных стилей запросов и масштабов моделей. Для устранения этих ограничений был разработан градиентно-уточненный адаптивный фреймворк активационного управления (G-ACT): различия в активации для каждого запроса кластеризуются в небольшой набор направлений управления, а легковесные зонды на уровне слоев обучаются и уточняются в режиме реального времени для выбора подходящего вектора управления. В модели LLaMA-3.2 3B этот подход надежно смещает генерацию в сторону языка CPP, увеличивая среднюю точность классификации зондов на 15%, а для ранних слоев (0-6) точность классификации зондов улучшается на 61,5% по сравнению со стандартным фреймворком ACT. Для модели LLaMA-3.3 70B, где сигналы голов внимания становятся более рассеянными, целевые инъекции в ключевые слои все же улучшают выбор языка. Хотя зондирование на уровне слоев вносит умеренные накладные расходы на вывод, оно остается практичным, управляя только подмножеством слоев, и обеспечивает воспроизводимое поведение модели. Эти результаты демонстрируют масштабируемый, интерпретируемый и эффективный механизм управления на уровне концепций для практических агентных систем.
English
This work examines whether activating latent subspaces in language models
(LLMs) can steer scientific code generation toward a specific programming
language. Five causal LLMs were first evaluated on scientific coding prompts to
quantify their baseline bias among four programming languages. A static
neuron-attribution method, perturbing the highest activated MLP weight for a
C++ or CPP token, proved brittle and exhibited limited generalization across
prompt styles and model scales. To address these limitations, a
gradient-refined adaptive activation steering framework (G-ACT) was developed:
per-prompt activation differences are clustered into a small set of steering
directions, and lightweight per-layer probes are trained and refined online to
select the appropriate steering vector. In LLaMA-3.2 3B, this approach reliably
biases generation towards the CPP language by increasing the average probe
classification accuracy by 15% and the early layers (0-6) improving the probe
classification accuracy by 61.5% compared to the standard ACT framework. For
LLaMA-3.3 70B, where attention-head signals become more diffuse, targeted
injections at key layers still improve language selection. Although per-layer
probing introduces a modest inference overhead, it remains practical by
steering only a subset of layers and enables reproducible model behavior. These
results demonstrate a scalable, interpretable and efficient mechanism for
concept-level control for practical agentic systems.