Geração Contratual de Modelos de Linguagem
Counterfactual Generation from Language Models
November 11, 2024
Autores: Shauli Ravfogel, Anej Svete, Vésteinn Snæbjarnarson, Ryan Cotterell
cs.AI
Resumo
Compreender e manipular os mecanismos de geração causal em modelos de linguagem é essencial para controlar seu comportamento. Trabalhos anteriores têm se baseado principalmente em técnicas como cirurgia de representação - por exemplo, ablações de modelo ou manipulação de subespaços lineares ligados a conceitos específicos - para intervir nesses modelos. Para compreender precisamente o impacto das intervenções, é útil examinar contrafactuais - por exemplo, como uma determinada frase teria aparecido se tivesse sido gerada pelo modelo seguindo uma intervenção específica. Destacamos que o raciocínio contrafactual é conceitualmente distinto das intervenções, conforme articulado na hierarquia causal de Pearl. Com base nessa observação, propomos um framework para gerar verdadeiros contrafactuais de string reformulando modelos de linguagem como Modelos de Equações Estruturais Generalizadas usando o truque Gumbel-max. Isso nos permite modelar a distribuição conjunta sobre strings originais e seus contrafactuais resultantes da mesma instanciação do ruído de amostragem. Desenvolvemos um algoritmo baseado em amostragem Gumbel retrospectiva que nos permite inferir as variáveis de ruído latentes e gerar contrafactuais de strings observadas. Nossos experimentos demonstram que a abordagem produz contrafactuais significativos, ao mesmo tempo em que mostram que as técnicas de intervenção comumente usadas têm efeitos colaterais indesejados consideráveis.
English
Understanding and manipulating the causal generation mechanisms in language
models is essential for controlling their behavior. Previous work has primarily
relied on techniques such as representation surgery -- e.g., model ablations or
manipulation of linear subspaces tied to specific concepts -- to intervene on
these models. To understand the impact of interventions precisely, it is useful
to examine counterfactuals -- e.g., how a given sentence would have appeared
had it been generated by the model following a specific intervention. We
highlight that counterfactual reasoning is conceptually distinct from
interventions, as articulated in Pearl's causal hierarchy. Based on this
observation, we propose a framework for generating true string counterfactuals
by reformulating language models as Generalized Structural-equation. Models
using the Gumbel-max trick. This allows us to model the joint distribution over
original strings and their counterfactuals resulting from the same
instantiation of the sampling noise. We develop an algorithm based on hindsight
Gumbel sampling that allows us to infer the latent noise variables and generate
counterfactuals of observed strings. Our experiments demonstrate that the
approach produces meaningful counterfactuals while at the same time showing
that commonly used intervention techniques have considerable undesired side
effects.