Revelando Sesgos en Modelos de Lenguaje de Gran Escala mediante Decodificación de Entradas Contrastivas
Surfacing Biases in Large Language Models using Contrastive Input Decoding
May 12, 2023
Autores: Gal Yona, Or Honovich, Itay Laish, Roee Aharoni
cs.AI
Resumen
Garantizar que los modelos de lenguaje a gran escala (LM, por sus siglas en inglés) sean justos, robustos y útiles requiere comprender cómo las diferentes modificaciones en sus entradas impactan el comportamiento del modelo. Sin embargo, en el contexto de tareas de generación de texto abierto, dicha evaluación no es trivial. Por ejemplo, al presentar a un modelo un texto de entrada y una versión perturbada o "contrastiva" del mismo, las diferencias significativas en las predicciones del siguiente token pueden no revelarse con estrategias de decodificación estándar. Con esta motivación en mente, proponemos la Decodificación de Entrada Contrastiva (CID, por sus siglas en inglés): un algoritmo de decodificación para generar texto a partir de dos entradas, donde el texto generado es probable dada una entrada pero improbable dada la otra. De esta manera, las generaciones contrastivas pueden resaltar diferencias potencialmente sutiles en cómo la salida del LM varía para las dos entradas de una manera simple e interpretable. Utilizamos CID para resaltar sesgos específicos del contexto que son difíciles de detectar con estrategias de decodificación estándar y cuantificar el efecto de diferentes perturbaciones en la entrada.
English
Ensuring that large language models (LMs) are fair, robust and useful
requires an understanding of how different modifications to their inputs impact
the model's behaviour. In the context of open-text generation tasks, however,
such an evaluation is not trivial. For example, when introducing a model with
an input text and a perturbed, "contrastive" version of it, meaningful
differences in the next-token predictions may not be revealed with standard
decoding strategies. With this motivation in mind, we propose Contrastive Input
Decoding (CID): a decoding algorithm to generate text given two inputs, where
the generated text is likely given one input but unlikely given the other. In
this way, the contrastive generations can highlight potentially subtle
differences in how the LM output differs for the two inputs in a simple and
interpretable manner. We use CID to highlight context-specific biases that are
hard to detect with standard decoding strategies and quantify the effect of
different input perturbations.