Управление по необходимости: гибкое управление большими языковыми моделями с использованием обратного отслеживания
Steering When Necessary: Flexible Steering Large Language Models with Backtracking
August 25, 2025
Авторы: Jinwei Gan, Zifeng Cheng, Zhiwei Jiang, Cong Wang, Yafeng Yin, Xiang Luo, Yuchen Fu, Qing Gu
cs.AI
Аннотация
Крупные языковые модели (LLMs) демонстрируют выдающиеся результаты в различных задачах генерации. Тем не менее, эффективное согласование их поведения с желаемыми целями остается серьезной проблемой. Управление активациями представляет собой эффективный и экономичный подход, который напрямую изменяет активации LLMs на этапе вывода, согласовывая их ответы с желаемым поведением и избегая высоких затрат на тонкую настройку. Существующие методы обычно вмешиваются во все генерации без разбора или полагаются исключительно на вопрос для определения вмешательства, что ограничивает точную оценку силы вмешательства. В связи с этим мы предлагаем фреймворк Flexible Activation Steering with Backtracking (FASB), который динамически определяет как необходимость, так и силу вмешательства, отслеживая внутренние состояния LLMs в процессе генерации, учитывая как вопрос, так и сгенерированный контент. Поскольку вмешательство после обнаружения отклонения от желаемого поведения часто оказывается слишком запоздалым, мы дополнительно предлагаем механизм возврата (backtracking) для исправления отклоненных токенов и направления LLMs к желаемому поведению. Многочисленные эксперименты на наборе данных TruthfulQA и шести наборах данных с множественным выбором показывают, что наш метод превосходит базовые подходы. Наш код будет доступен по адресу https://github.com/gjw185/FASB.
English
Large language models (LLMs) have achieved remarkable performance across many
generation tasks. Nevertheless, effectively aligning them with desired
behaviors remains a significant challenge. Activation steering is an effective
and cost-efficient approach that directly modifies the activations of LLMs
during the inference stage, aligning their responses with the desired behaviors
and avoiding the high cost of fine-tuning. Existing methods typically
indiscriminately intervene to all generations or rely solely on the question to
determine intervention, which limits the accurate assessment of the
intervention strength. To this end, we propose the Flexible Activation Steering
with Backtracking (FASB) framework, which dynamically determines both the
necessity and strength of intervention by tracking the internal states of the
LLMs during generation, considering both the question and the generated
content. Since intervening after detecting a deviation from the desired
behavior is often too late, we further propose the backtracking mechanism to
correct the deviated tokens and steer the LLMs toward the desired behavior.
Extensive experiments on the TruthfulQA dataset and six multiple-choice
datasets demonstrate that our method outperforms baselines. Our code will be
released at https://github.com/gjw185/FASB.