Ricorso per la rivendicazione: Conversare con modelli linguistici generativi
Recourse for reclamation: Chatting with generative language models
March 21, 2024
Autori: Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac
cs.AI
Abstract
I ricercatori e gli sviluppatori si affidano sempre più ai punteggi di tossicità per moderare gli output dei modelli linguistici generativi, in contesti come il servizio clienti, il recupero delle informazioni e la generazione di contenuti. Tuttavia, la valutazione della tossicità può rendere inaccessibili informazioni pertinenti, irrigidire o "bloccare" le norme culturali, e impedire i processi di riappropriazione linguistica, in particolare per le persone emarginate. In questo lavoro, estendiamo il concetto di ricorso algoritmico ai modelli linguistici generativi: forniamo agli utenti un meccanismo innovativo per ottenere la previsione desiderata impostando dinamicamente le soglie per il filtraggio della tossicità. In questo modo, gli utenti esercitano un maggiore controllo rispetto alle interazioni con il sistema di base. Uno studio pilota (n = 30) supporta il potenziale del nostro meccanismo di ricorso proposto, indicando miglioramenti nell'usabilità rispetto al filtraggio della tossicità con soglie fisse degli output del modello. I lavori futuri dovrebbero esplorare l'intersezione tra valutazione della tossicità, controllabilità del modello, autonomia dell'utente e processi di riappropriazione linguistica, in particolare per quanto riguarda il pregiudizio che molte comunità incontrano quando interagiscono con modelli linguistici generativi.
English
Researchers and developers increasingly rely on toxicity scoring to moderate
generative language model outputs, in settings such as customer service,
information retrieval, and content generation. However, toxicity scoring may
render pertinent information inaccessible, rigidify or "value-lock" cultural
norms, and prevent language reclamation processes, particularly for
marginalized people. In this work, we extend the concept of algorithmic
recourse to generative language models: we provide users a novel mechanism to
achieve their desired prediction by dynamically setting thresholds for toxicity
filtering. Users thereby exercise increased agency relative to interactions
with the baseline system. A pilot study (n = 30) supports the potential of
our proposed recourse mechanism, indicating improvements in usability compared
to fixed-threshold toxicity-filtering of model outputs. Future work should
explore the intersection of toxicity scoring, model controllability, user
agency, and language reclamation processes -- particularly with regard to the
bias that many communities encounter when interacting with generative language
models.