Mise en lumière des biais dans les grands modèles de langage grâce au décodage contrastif des entrées
Surfacing Biases in Large Language Models using Contrastive Input Decoding
May 12, 2023
Auteurs: Gal Yona, Or Honovich, Itay Laish, Roee Aharoni
cs.AI
Résumé
Garantir que les grands modèles de langage (LMs) soient équitables, robustes et utiles nécessite une compréhension de la manière dont différentes modifications de leurs entrées influencent leur comportement. Cependant, dans le contexte des tâches de génération de texte ouvert, une telle évaluation n'est pas triviale. Par exemple, lorsqu'on présente à un modèle un texte d'entrée et une version perturbée et "contrastive" de celui-ci, des différences significatives dans les prédictions de tokens suivants peuvent ne pas être révélées avec des stratégies de décodage standard. Avec cette motivation en tête, nous proposons le **Contrastive Input Decoding (CID)** : un algorithme de décodage pour générer du texte à partir de deux entrées, où le texte généré est probable pour une entrée mais improbable pour l'autre. De cette manière, les générations contrastives peuvent mettre en évidence de manière simple et interprétable des différences potentiellement subtiles dans la manière dont la sortie du LM varie pour les deux entrées. Nous utilisons le CID pour révéler des biais spécifiques au contexte difficiles à détecter avec des stratégies de décodage standard et pour quantifier l'effet de différentes perturbations d'entrée.
English
Ensuring that large language models (LMs) are fair, robust and useful
requires an understanding of how different modifications to their inputs impact
the model's behaviour. In the context of open-text generation tasks, however,
such an evaluation is not trivial. For example, when introducing a model with
an input text and a perturbed, "contrastive" version of it, meaningful
differences in the next-token predictions may not be revealed with standard
decoding strategies. With this motivation in mind, we propose Contrastive Input
Decoding (CID): a decoding algorithm to generate text given two inputs, where
the generated text is likely given one input but unlikely given the other. In
this way, the contrastive generations can highlight potentially subtle
differences in how the LM output differs for the two inputs in a simple and
interpretable manner. We use CID to highlight context-specific biases that are
hard to detect with standard decoding strategies and quantify the effect of
different input perturbations.