Управление по необходимости: гибкое управление большими языковыми моделями с использованием обратного отслеживания

Аннотация

Крупные языковые модели (LLMs) демонстрируют выдающиеся результаты в различных задачах генерации. Тем не менее, эффективное согласование их поведения с желаемыми целями остается серьезной проблемой. Управление активациями представляет собой эффективный и экономичный подход, который напрямую изменяет активации LLMs на этапе вывода, согласовывая их ответы с желаемым поведением и избегая высоких затрат на тонкую настройку. Существующие методы обычно вмешиваются во все генерации без разбора или полагаются исключительно на вопрос для определения вмешательства, что ограничивает точную оценку силы вмешательства. В связи с этим мы предлагаем фреймворк Flexible Activation Steering with Backtracking (FASB), который динамически определяет как необходимость, так и силу вмешательства, отслеживая внутренние состояния LLMs в процессе генерации, учитывая как вопрос, так и сгенерированный контент. Поскольку вмешательство после обнаружения отклонения от желаемого поведения часто оказывается слишком запоздалым, мы дополнительно предлагаем механизм возврата (backtracking) для исправления отклоненных токенов и направления LLMs к желаемому поведению. Многочисленные эксперименты на наборе данных TruthfulQA и шести наборах данных с множественным выбором показывают, что наш метод превосходит базовые подходы. Наш код будет доступен по адресу https://github.com/gjw185/FASB.

English

Large language models (LLMs) have achieved remarkable performance across many generation tasks. Nevertheless, effectively aligning them with desired behaviors remains a significant challenge. Activation steering is an effective and cost-efficient approach that directly modifies the activations of LLMs during the inference stage, aligning their responses with the desired behaviors and avoiding the high cost of fine-tuning. Existing methods typically indiscriminately intervene to all generations or rely solely on the question to determine intervention, which limits the accurate assessment of the intervention strength. To this end, we propose the Flexible Activation Steering with Backtracking (FASB) framework, which dynamically determines both the necessity and strength of intervention by tracking the internal states of the LLMs during generation, considering both the question and the generated content. Since intervening after detecting a deviation from the desired behavior is often too late, we further propose the backtracking mechanism to correct the deviated tokens and steer the LLMs toward the desired behavior. Extensive experiments on the TruthfulQA dataset and six multiple-choice datasets demonstrate that our method outperforms baselines. Our code will be released at https://github.com/gjw185/FASB.

Управление по необходимости: гибкое управление большими языковыми моделями с использованием обратного отслеживания

Steering When Necessary: Flexible Steering Large Language Models with Backtracking

Аннотация

Support