ChatPaper.aiChatPaper

재생을 위한 구제 수단: 생성형 언어 모델과의 대화

Recourse for reclamation: Chatting with generative language models

March 21, 2024
저자: Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac
cs.AI

초록

연구자와 개발자들은 고객 서비스, 정보 검색, 콘텐츠 생성과 같은 환경에서 생성형 언어 모델의 출력을 조절하기 위해 점점 더 독성 점수화(toxicity scoring)에 의존하고 있습니다. 그러나 독성 점수화는 관련 정보에 대한 접근을 차단하거나, 문화적 규범을 경직화하거나 "가치 고정"시킬 수 있으며, 특히 소외된 사람들의 언어 재활 과정을 방해할 수 있습니다. 본 연구에서는 알고리즘적 재조정(algorithmic recourse) 개념을 생성형 언어 모델로 확장합니다: 사용자가 독성 필터링을 위한 임계값을 동적으로 설정함으로써 원하는 예측 결과를 달성할 수 있는 새로운 메커니즘을 제공합니다. 이를 통해 사용자는 기본 시스템과 상호작용할 때보다 더 큰 주체성을 행사할 수 있습니다. 파일럿 연구(n = 30)는 고정 임계값 독성 필터링과 비교하여 제안된 재조정 메커니즘이 사용성 측면에서 개선 가능성을 보여줍니다. 향후 연구는 독성 점수화, 모델 제어 가능성, 사용자 주체성, 언어 재활 과정의 교차점을 탐구해야 하며, 특히 생성형 언어 모델과 상호작용할 때 많은 커뮤니티가 직면하는 편향성에 주목해야 할 것입니다.
English
Researchers and developers increasingly rely on toxicity scoring to moderate generative language model outputs, in settings such as customer service, information retrieval, and content generation. However, toxicity scoring may render pertinent information inaccessible, rigidify or "value-lock" cultural norms, and prevent language reclamation processes, particularly for marginalized people. In this work, we extend the concept of algorithmic recourse to generative language models: we provide users a novel mechanism to achieve their desired prediction by dynamically setting thresholds for toxicity filtering. Users thereby exercise increased agency relative to interactions with the baseline system. A pilot study (n = 30) supports the potential of our proposed recourse mechanism, indicating improvements in usability compared to fixed-threshold toxicity-filtering of model outputs. Future work should explore the intersection of toxicity scoring, model controllability, user agency, and language reclamation processes -- particularly with regard to the bias that many communities encounter when interacting with generative language models.

Summary

AI-Generated Summary

PDF81December 15, 2024