Генерация контрфактуальных сценариев с помощью языковых моделей
Counterfactual Generation from Language Models
November 11, 2024
Авторы: Shauli Ravfogel, Anej Svete, Vésteinn Snæbjarnarson, Ryan Cotterell
cs.AI
Аннотация
Понимание и управление механизмами причинно-следственной генерации в языковых моделях является важным для контроля их поведения. В предыдущих работах в основном использовались техники, такие как хирургия представлений - например, абляции модели или манипуляции линейными подпространствами, связанными с конкретными концепциями - для вмешательства в эти модели. Для точного понимания влияния вмешательств полезно изучать контрфактические ситуации - например, как бы выглядело данное предложение, если бы оно было сгенерировано моделью после определенного вмешательства. Мы подчеркиваем, что контрфактическое мышление концептуально отличается от вмешательств, как это сформулировано в иерархии причин Перла. Исходя из этого наблюдения, мы предлагаем рамочную модель для генерации истинных контрфактических строк путем переформулирования языковых моделей как Обобщенных Структурно-уравненческих Моделей с использованием трюка Gumbel-max. Это позволяет нам моделировать совместное распределение над исходными строками и их контрфактическими версиями, возникающими из того же самого инстанцирования шума выборки. Мы разрабатываем алгоритм на основе обратного выбора Gumbel, который позволяет нам выводить скрытые переменные шума и генерировать контрфактические версии наблюдаемых строк. Наши эксперименты демонстрируют, что данному подходу удается производить содержательные контрфакты, показывая при этом, что широко используемые техники вмешательства имеют значительные нежелательные побочные эффекты.
English
Understanding and manipulating the causal generation mechanisms in language
models is essential for controlling their behavior. Previous work has primarily
relied on techniques such as representation surgery -- e.g., model ablations or
manipulation of linear subspaces tied to specific concepts -- to intervene on
these models. To understand the impact of interventions precisely, it is useful
to examine counterfactuals -- e.g., how a given sentence would have appeared
had it been generated by the model following a specific intervention. We
highlight that counterfactual reasoning is conceptually distinct from
interventions, as articulated in Pearl's causal hierarchy. Based on this
observation, we propose a framework for generating true string counterfactuals
by reformulating language models as Generalized Structural-equation. Models
using the Gumbel-max trick. This allows us to model the joint distribution over
original strings and their counterfactuals resulting from the same
instantiation of the sampling noise. We develop an algorithm based on hindsight
Gumbel sampling that allows us to infer the latent noise variables and generate
counterfactuals of observed strings. Our experiments demonstrate that the
approach produces meaningful counterfactuals while at the same time showing
that commonly used intervention techniques have considerable undesired side
effects.Summary
AI-Generated Summary