Het Blootleggen van Vooroordelen in Grote Taalmodellen met Contrastief Invoerdecoderen
Surfacing Biases in Large Language Models using Contrastive Input Decoding
May 12, 2023
Auteurs: Gal Yona, Or Honovich, Itay Laish, Roee Aharoni
cs.AI
Samenvatting
Het waarborgen dat grote taalmodelen (LMs) eerlijk, robuust en nuttig zijn, vereist inzicht in hoe verschillende aanpassingen aan hun invoer het gedrag van het model beïnvloeden. In de context van open-tekstgeneratietaken is een dergelijke evaluatie echter niet triviaal. Bijvoorbeeld, wanneer een model wordt gepresenteerd met een invoertekst en een verstoorde, "contrastieve" versie daarvan, kunnen betekenisvolle verschillen in de volgende-tokenvoorspellingen niet altijd worden onthuld met standaard decodeerstrategieën. Met deze motivatie in gedachten stellen wij Contrastive Input Decoding (CID) voor: een decodeeralgoritme om tekst te genereren op basis van twee invoeren, waarbij de gegenereerde tekst waarschijnlijk is gegeven de ene invoer maar onwaarschijnlijk gegeven de andere. Op deze manier kunnen de contrastieve generaties potentieel subtiele verschillen in hoe de LM-uitvoer verschilt voor de twee invoeren op een eenvoudige en interpreteerbare manier benadrukken. Wij gebruiken CID om context-specifieke vooroordelen te belichten die moeilijk te detecteren zijn met standaard decodeerstrategieën en om het effect van verschillende invoerverstoringen te kwantificeren.
English
Ensuring that large language models (LMs) are fair, robust and useful
requires an understanding of how different modifications to their inputs impact
the model's behaviour. In the context of open-text generation tasks, however,
such an evaluation is not trivial. For example, when introducing a model with
an input text and a perturbed, "contrastive" version of it, meaningful
differences in the next-token predictions may not be revealed with standard
decoding strategies. With this motivation in mind, we propose Contrastive Input
Decoding (CID): a decoding algorithm to generate text given two inputs, where
the generated text is likely given one input but unlikely given the other. In
this way, the contrastive generations can highlight potentially subtle
differences in how the LM output differs for the two inputs in a simple and
interpretable manner. We use CID to highlight context-specific biases that are
hard to detect with standard decoding strategies and quantify the effect of
different input perturbations.