Aufdeckung von Verzerrungen in großen Sprachmodellen durch kontrastive Eingabedekodierung
Surfacing Biases in Large Language Models using Contrastive Input Decoding
May 12, 2023
Autoren: Gal Yona, Or Honovich, Itay Laish, Roee Aharoni
cs.AI
Zusammenfassung
Um sicherzustellen, dass große Sprachmodelle (LMs) fair, robust und nützlich sind, ist es erforderlich zu verstehen, wie verschiedene Modifikationen ihrer Eingaben das Verhalten des Modells beeinflussen. Im Kontext von Open-Text-Generierungsaufgaben ist eine solche Bewertung jedoch nicht trivial. Wenn beispielsweise ein Modell mit einem Eingabetext und einer veränderten, „kontrastiven“ Version davon konfrontiert wird, können bedeutungsvolle Unterschiede in den Vorhersagen des nächsten Tokens mit Standard-Decodierungsstrategien möglicherweise nicht aufgedeckt werden. Vor diesem Hintergrund schlagen wir Contrastive Input Decoding (CID) vor: einen Decodierungsalgorithmus, der Text basierend auf zwei Eingaben generiert, wobei der generierte Text für eine Eingabe wahrscheinlich, für die andere jedoch unwahrscheinlich ist. Auf diese Weise können die kontrastiven Generierungen potenziell subtile Unterschiede in der Ausgabe des LMs für die beiden Eingaben auf einfache und interpretierbare Weise hervorheben. Wir verwenden CID, um kontextspezifische Verzerrungen aufzuzeigen, die mit Standard-Decodierungsstrategien schwer zu erkennen sind, und quantifizieren die Auswirkungen verschiedener Eingabestörungen.
English
Ensuring that large language models (LMs) are fair, robust and useful
requires an understanding of how different modifications to their inputs impact
the model's behaviour. In the context of open-text generation tasks, however,
such an evaluation is not trivial. For example, when introducing a model with
an input text and a perturbed, "contrastive" version of it, meaningful
differences in the next-token predictions may not be revealed with standard
decoding strategies. With this motivation in mind, we propose Contrastive Input
Decoding (CID): a decoding algorithm to generate text given two inputs, where
the generated text is likely given one input but unlikely given the other. In
this way, the contrastive generations can highlight potentially subtle
differences in how the LM output differs for the two inputs in a simple and
interpretable manner. We use CID to highlight context-specific biases that are
hard to detect with standard decoding strategies and quantify the effect of
different input perturbations.