Выявление предубеждений в больших языковых моделях с использованием контрастного декодирования входных данных
Surfacing Biases in Large Language Models using Contrastive Input Decoding
May 12, 2023
Авторы: Gal Yona, Or Honovich, Itay Laish, Roee Aharoni
cs.AI
Аннотация
Обеспечение справедливости, устойчивости и полезности крупных языковых моделей (LM) требует понимания того, как различные модификации их входных данных влияют на поведение модели. Однако в контексте задач генерации открытого текста такая оценка не является тривиальной. Например, при представлении модели с входным текстом и его изменённой, "контрастной" версией значимые различия в предсказаниях следующего токена могут не быть выявлены с использованием стандартных стратегий декодирования. С этой целью мы предлагаем Contrastive Input Decoding (CID): алгоритм декодирования для генерации текста на основе двух входных данных, где сгенерированный текст вероятен для одного входа, но маловероятен для другого. Таким образом, контрастные генерации могут выделить потенциально тонкие различия в том, как выход модели LM различается для двух входных данных, в простой и интерпретируемой форме. Мы используем CID для выявления контекстно-зависимых предубеждений, которые сложно обнаружить с помощью стандартных стратегий декодирования, и для количественной оценки эффекта различных модификаций входных данных.
English
Ensuring that large language models (LMs) are fair, robust and useful
requires an understanding of how different modifications to their inputs impact
the model's behaviour. In the context of open-text generation tasks, however,
such an evaluation is not trivial. For example, when introducing a model with
an input text and a perturbed, "contrastive" version of it, meaningful
differences in the next-token predictions may not be revealed with standard
decoding strategies. With this motivation in mind, we propose Contrastive Input
Decoding (CID): a decoding algorithm to generate text given two inputs, where
the generated text is likely given one input but unlikely given the other. In
this way, the contrastive generations can highlight potentially subtle
differences in how the LM output differs for the two inputs in a simple and
interpretable manner. We use CID to highlight context-specific biases that are
hard to detect with standard decoding strategies and quantify the effect of
different input perturbations.