ChatPaper.aiChatPaper

Recours à la réclamation : Dialoguer avec des modèles de langage génératifs

Recourse for reclamation: Chatting with generative language models

March 21, 2024
Auteurs: Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac
cs.AI

Résumé

Les chercheurs et développeurs s'appuient de plus en plus sur le scoring de toxicité pour modérer les sorties des modèles de langage génératifs, dans des contextes tels que le service client, la recherche d'information et la génération de contenu. Cependant, le scoring de toxicité peut rendre des informations pertinentes inaccessibles, rigidifier ou "verrouiller" les normes culturelles, et entraver les processus de réappropriation linguistique, en particulier pour les personnes marginalisées. Dans ce travail, nous étendons le concept de recours algorithmique aux modèles de langage génératifs : nous proposons aux utilisateurs un mécanisme novateur pour obtenir la prédiction souhaitée en définissant dynamiquement des seuils de filtrage de la toxicité. Les utilisateurs exercent ainsi un plus grand contrôle par rapport aux interactions avec le système de base. Une étude pilote (n = 30) soutient le potentiel de notre mécanisme de recours proposé, indiquant des améliorations en termes de facilité d'utilisation par rapport au filtrage de toxicité à seuil fixe des sorties du modèle. Les travaux futurs devraient explorer l'intersection entre le scoring de toxicité, la contrôlabilité des modèles, le contrôle utilisateur et les processus de réappropriation linguistique — en particulier en ce qui concerne les biais auxquels de nombreuses communautés sont confrontées lors de leurs interactions avec les modèles de langage génératifs.
English
Researchers and developers increasingly rely on toxicity scoring to moderate generative language model outputs, in settings such as customer service, information retrieval, and content generation. However, toxicity scoring may render pertinent information inaccessible, rigidify or "value-lock" cultural norms, and prevent language reclamation processes, particularly for marginalized people. In this work, we extend the concept of algorithmic recourse to generative language models: we provide users a novel mechanism to achieve their desired prediction by dynamically setting thresholds for toxicity filtering. Users thereby exercise increased agency relative to interactions with the baseline system. A pilot study (n = 30) supports the potential of our proposed recourse mechanism, indicating improvements in usability compared to fixed-threshold toxicity-filtering of model outputs. Future work should explore the intersection of toxicity scoring, model controllability, user agency, and language reclamation processes -- particularly with regard to the bias that many communities encounter when interacting with generative language models.

Summary

AI-Generated Summary

PDF81December 15, 2024