ChatPaper.aiChatPaper

Möglichkeiten zur Rückverfolgung: Unterhaltung mit generativen Sprachmodellen

Recourse for reclamation: Chatting with generative language models

March 21, 2024
papers.authors: Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac
cs.AI

papers.abstract

Forscher und Entwickler verlassen sich zunehmend auf Toxizitätsbewertungen, um die Ausgaben generativer Sprachmodellierungen in Bereichen wie Kundenservice, Informationsabruf und Inhaltsgenerierung zu moderieren. Allerdings kann die Toxizitätsbewertung relevante Informationen unzugänglich machen, kulturelle Normen versteifen oder "werteverriegeln" und Sprachaneignungsprozesse verhindern, insbesondere für marginalisierte Personen. In dieser Arbeit erweitern wir das Konzept des algorithmischen Rückgriffs auf generative Sprachmodelle: Wir bieten den Nutzern einen neuartigen Mechanismus, um ihre gewünschte Vorhersage zu erreichen, indem sie Schwellenwerte für die Toxizitätsfilterung dynamisch festlegen. Die Nutzer können dadurch im Vergleich zur Interaktion mit dem Basissystem ein erhöhtes Maß an Handlungsfähigkeit ausüben. Eine Pilotstudie (n = 30) unterstützt das Potenzial unseres vorgeschlagenen Rückgriffmechanismus und deutet auf Verbesserungen in der Benutzerfreundlichkeit im Vergleich zur festen Toxizitätsfilterung der Modellausgaben hin. Zukünftige Arbeiten sollten die Schnittstelle von Toxizitätsbewertung, Modellsteuerbarkeit, Nutzerhandlungsfähigkeit und Sprachaneignungsprozessen untersuchen - insbesondere im Hinblick auf die Voreingenommenheit, der viele Gemeinschaften bei der Interaktion mit generativen Sprachmodellen begegnen.
English
Researchers and developers increasingly rely on toxicity scoring to moderate generative language model outputs, in settings such as customer service, information retrieval, and content generation. However, toxicity scoring may render pertinent information inaccessible, rigidify or "value-lock" cultural norms, and prevent language reclamation processes, particularly for marginalized people. In this work, we extend the concept of algorithmic recourse to generative language models: we provide users a novel mechanism to achieve their desired prediction by dynamically setting thresholds for toxicity filtering. Users thereby exercise increased agency relative to interactions with the baseline system. A pilot study (n = 30) supports the potential of our proposed recourse mechanism, indicating improvements in usability compared to fixed-threshold toxicity-filtering of model outputs. Future work should explore the intersection of toxicity scoring, model controllability, user agency, and language reclamation processes -- particularly with regard to the bias that many communities encounter when interacting with generative language models.
PDF81December 15, 2024