Revelando Vieses em Modelos de Linguagem de Grande Escala usando Decodificação de Entrada Contrastiva

Resumo

Garantir que os grandes modelos de linguagem (LMs) sejam justos, robustos e úteis requer uma compreensão de como diferentes modificações em suas entradas impactam o comportamento do modelo. No contexto de tarefas de geração de texto aberto, no entanto, essa avaliação não é trivial. Por exemplo, ao apresentar a um modelo um texto de entrada e uma versão perturbada e "contrastiva" dele, diferenças significativas nas previsões do próximo token podem não ser reveladas com estratégias de decodificação padrão. Com essa motivação em mente, propomos o Contrastive Input Decoding (CID): um algoritmo de decodificação para gerar texto a partir de duas entradas, onde o texto gerado é provável dada uma entrada, mas improvável dada a outra. Dessa forma, as gerações contrastivas podem destacar diferenças potencialmente sutis em como a saída do LM varia para as duas entradas de maneira simples e interpretável. Utilizamos o CID para destacar vieses específicos de contexto que são difíceis de detectar com estratégias de decodificação padrão e quantificar o efeito de diferentes perturbações de entrada.

English

Ensuring that large language models (LMs) are fair, robust and useful requires an understanding of how different modifications to their inputs impact the model's behaviour. In the context of open-text generation tasks, however, such an evaluation is not trivial. For example, when introducing a model with an input text and a perturbed, "contrastive" version of it, meaningful differences in the next-token predictions may not be revealed with standard decoding strategies. With this motivation in mind, we propose Contrastive Input Decoding (CID): a decoding algorithm to generate text given two inputs, where the generated text is likely given one input but unlikely given the other. In this way, the contrastive generations can highlight potentially subtle differences in how the LM output differs for the two inputs in a simple and interpretable manner. We use CID to highlight context-specific biases that are hard to detect with standard decoding strategies and quantify the effect of different input perturbations.

Revelando Vieses em Modelos de Linguagem de Grande Escala usando Decodificação de Entrada Contrastiva

Surfacing Biases in Large Language Models using Contrastive Input Decoding

Resumo

Support