Revelando Sesgos en Modelos de Lenguaje de Gran Escala mediante Decodificación de Entradas Contrastivas

Resumen

Garantizar que los modelos de lenguaje a gran escala (LM, por sus siglas en inglés) sean justos, robustos y útiles requiere comprender cómo las diferentes modificaciones en sus entradas impactan el comportamiento del modelo. Sin embargo, en el contexto de tareas de generación de texto abierto, dicha evaluación no es trivial. Por ejemplo, al presentar a un modelo un texto de entrada y una versión perturbada o "contrastiva" del mismo, las diferencias significativas en las predicciones del siguiente token pueden no revelarse con estrategias de decodificación estándar. Con esta motivación en mente, proponemos la Decodificación de Entrada Contrastiva (CID, por sus siglas en inglés): un algoritmo de decodificación para generar texto a partir de dos entradas, donde el texto generado es probable dada una entrada pero improbable dada la otra. De esta manera, las generaciones contrastivas pueden resaltar diferencias potencialmente sutiles en cómo la salida del LM varía para las dos entradas de una manera simple e interpretable. Utilizamos CID para resaltar sesgos específicos del contexto que son difíciles de detectar con estrategias de decodificación estándar y cuantificar el efecto de diferentes perturbaciones en la entrada.

English

Ensuring that large language models (LMs) are fair, robust and useful requires an understanding of how different modifications to their inputs impact the model's behaviour. In the context of open-text generation tasks, however, such an evaluation is not trivial. For example, when introducing a model with an input text and a perturbed, "contrastive" version of it, meaningful differences in the next-token predictions may not be revealed with standard decoding strategies. With this motivation in mind, we propose Contrastive Input Decoding (CID): a decoding algorithm to generate text given two inputs, where the generated text is likely given one input but unlikely given the other. In this way, the contrastive generations can highlight potentially subtle differences in how the LM output differs for the two inputs in a simple and interpretable manner. We use CID to highlight context-specific biases that are hard to detect with standard decoding strategies and quantify the effect of different input perturbations.

Revelando Sesgos en Modelos de Lenguaje de Gran Escala mediante Decodificación de Entradas Contrastivas

Surfacing Biases in Large Language Models using Contrastive Input Decoding

Resumen

Support