대조적 입력 디코딩을 활용한 대형 언어 모델의 편향성 표면화
Surfacing Biases in Large Language Models using Contrastive Input Decoding
May 12, 2023
저자: Gal Yona, Or Honovich, Itay Laish, Roee Aharoni
cs.AI
초록
대규모 언어 모델(LM)이 공정하고 견고하며 유용하도록 보장하기 위해서는 입력에 대한 다양한 수정이 모델의 행동에 미치는 영향을 이해하는 것이 필요합니다. 그러나 개방형 텍스트 생성 작업의 맥락에서 이러한 평가는 간단하지 않습니다. 예를 들어, 모델에 입력 텍스트와 그에 대한 "대조적" 변형 버전을 제시할 때, 표준 디코딩 전략으로는 다음 토큰 예측에서 의미 있는 차이를 드러내지 못할 수 있습니다. 이러한 동기를 바탕으로, 우리는 대조적 입력 디코딩(Contrastive Input Decoding, CID)을 제안합니다: 두 개의 입력이 주어졌을 때, 하나의 입력에 대해서는 가능성이 높지만 다른 입력에 대해서는 가능성이 낮은 텍스트를 생성하는 디코딩 알고리즘입니다. 이 방식으로, 대조적 생성은 두 입력에 대한 LM 출력의 잠재적으로 미묘한 차이를 간단하고 해석 가능한 방식으로 강조할 수 있습니다. 우리는 CID를 사용하여 표준 디코딩 전략으로는 감지하기 어려운 문맥 특정 편향을 강조하고, 다양한 입력 변형의 효과를 정량화합니다.
English
Ensuring that large language models (LMs) are fair, robust and useful
requires an understanding of how different modifications to their inputs impact
the model's behaviour. In the context of open-text generation tasks, however,
such an evaluation is not trivial. For example, when introducing a model with
an input text and a perturbed, "contrastive" version of it, meaningful
differences in the next-token predictions may not be revealed with standard
decoding strategies. With this motivation in mind, we propose Contrastive Input
Decoding (CID): a decoding algorithm to generate text given two inputs, where
the generated text is likely given one input but unlikely given the other. In
this way, the contrastive generations can highlight potentially subtle
differences in how the LM output differs for the two inputs in a simple and
interpretable manner. We use CID to highlight context-specific biases that are
hard to detect with standard decoding strategies and quantify the effect of
different input perturbations.