ChatPaper.aiChatPaper

Recours voor herstel: Interactie met generatieve taalmodelen

Recourse for reclamation: Chatting with generative language models

March 21, 2024
Auteurs: Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac
cs.AI

Samenvatting

Onderzoekers en ontwikkelaars vertrouwen steeds meer op toxiciteitsscores om de uitvoer van generatieve taalmodelen te modereren, in situaties zoals klantenservice, informatiezoekopdrachten en contentgeneratie. Toxiciteitsscores kunnen echter relevante informatie ontoegankelijk maken, culturele normen verstarren of "waardevastzetten", en taalhervinningsprocessen belemmeren, vooral voor gemarginaliseerde groepen. In dit werk breiden we het concept van algoritmisch recours uit naar generatieve taalmodelen: we bieden gebruikers een nieuw mechanisme om hun gewenste voorspelling te bereiken door dynamisch drempelwaarden in te stellen voor toxiciteitsfiltering. Gebruikers krijgen hierdoor meer regie in vergelijking met interacties met het basissysteem. Een pilotstudie (n = 30) ondersteunt het potentieel van ons voorgestelde recoursmechanisme, waarbij verbeteringen in bruikbaarheid worden aangegeven in vergelijking met toxiciteitsfiltering met vaste drempelwaarden voor modeluitvoer. Toekomstig onderzoek zou het snijvlak moeten verkennen van toxiciteitsscores, modelbeheersbaarheid, gebruikersregie en taalhervinningsprocessen — met name met betrekking tot de vooroordelen die veel gemeenschappen ervaren bij interacties met generatieve taalmodelen.
English
Researchers and developers increasingly rely on toxicity scoring to moderate generative language model outputs, in settings such as customer service, information retrieval, and content generation. However, toxicity scoring may render pertinent information inaccessible, rigidify or "value-lock" cultural norms, and prevent language reclamation processes, particularly for marginalized people. In this work, we extend the concept of algorithmic recourse to generative language models: we provide users a novel mechanism to achieve their desired prediction by dynamically setting thresholds for toxicity filtering. Users thereby exercise increased agency relative to interactions with the baseline system. A pilot study (n = 30) supports the potential of our proposed recourse mechanism, indicating improvements in usability compared to fixed-threshold toxicity-filtering of model outputs. Future work should explore the intersection of toxicity scoring, model controllability, user agency, and language reclamation processes -- particularly with regard to the bias that many communities encounter when interacting with generative language models.
PDF81February 8, 2026