Emergere dei Pregiudizi nei Modelli Linguistici di Grande Dimensione attraverso il Decodifica a Input Contrastivo
Surfacing Biases in Large Language Models using Contrastive Input Decoding
May 12, 2023
Autori: Gal Yona, Or Honovich, Itay Laish, Roee Aharoni
cs.AI
Abstract
Garantire che i modelli linguistici di grandi dimensioni (LM) siano equi, robusti e utili richiede una comprensione di come diverse modifiche ai loro input influenzino il comportamento del modello. Tuttavia, nel contesto dei compiti di generazione di testo aperto, una tale valutazione non è banale. Ad esempio, quando si presenta a un modello un testo di input e una sua versione perturbata e "contrastiva", differenze significative nelle previsioni del token successivo potrebbero non essere rivelate con strategie di decodifica standard. Con questa motivazione in mente, proponiamo il Contrastive Input Decoding (CID): un algoritmo di decodifica per generare testo dati due input, in cui il testo generato è probabile dato un input ma improbabile dato l'altro. In questo modo, le generazioni contrastive possono evidenziare in modo semplice e interpretabile potenziali differenze sottili nel modo in cui l'output del LM varia per i due input. Utilizziamo il CID per evidenziare bias specifici del contesto che sono difficili da rilevare con strategie di decodifica standard e per quantificare l'effetto di diverse perturbazioni dell'input.
English
Ensuring that large language models (LMs) are fair, robust and useful
requires an understanding of how different modifications to their inputs impact
the model's behaviour. In the context of open-text generation tasks, however,
such an evaluation is not trivial. For example, when introducing a model with
an input text and a perturbed, "contrastive" version of it, meaningful
differences in the next-token predictions may not be revealed with standard
decoding strategies. With this motivation in mind, we propose Contrastive Input
Decoding (CID): a decoding algorithm to generate text given two inputs, where
the generated text is likely given one input but unlikely given the other. In
this way, the contrastive generations can highlight potentially subtle
differences in how the LM output differs for the two inputs in a simple and
interpretable manner. We use CID to highlight context-specific biases that are
hard to detect with standard decoding strategies and quantify the effect of
different input perturbations.