Возможность обращения за восстановлением: Общение с генеративными языковыми моделями
Recourse for reclamation: Chatting with generative language models
March 21, 2024
Авторы: Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac
cs.AI
Аннотация
Исследователи и разработчики все чаще полагаются на оценку токсичности для умеренности выводов генеративных языковых моделей, в таких сферах, как обслуживание клиентов, поиск информации и генерация контента. Однако оценка токсичности может сделать соответствующую информацию недоступной, ужесточить или "заблокировать" культурные нормы и препятствовать процессам реабилитации языка, особенно для маргинализированных групп. В данной работе мы расширяем концепцию алгоритмического обращения к генеративным языковым моделям: мы предоставляем пользователям новый механизм для достижения желаемого прогноза путем динамической установки порогов для фильтрации токсичности. Пользователи таким образом обладают большим контролем по сравнению с взаимодействиями с базовой системой. Пилотное исследование (n = 30) подтверждает потенциал нашего предложенного механизма обращения, указывая на улучшения в удобстве использования по сравнению с фиксированной фильтрацией токсичности выводов модели. Будущие работы должны исследовать взаимосвязь оценки токсичности, управляемости модели, агентства пользователя и процессов реабилитации языка, особенно в отношении предвзятости, с которой сталкиваются многие сообщества при взаимодействии с генеративными языковыми моделями.
English
Researchers and developers increasingly rely on toxicity scoring to moderate
generative language model outputs, in settings such as customer service,
information retrieval, and content generation. However, toxicity scoring may
render pertinent information inaccessible, rigidify or "value-lock" cultural
norms, and prevent language reclamation processes, particularly for
marginalized people. In this work, we extend the concept of algorithmic
recourse to generative language models: we provide users a novel mechanism to
achieve their desired prediction by dynamically setting thresholds for toxicity
filtering. Users thereby exercise increased agency relative to interactions
with the baseline system. A pilot study (n = 30) supports the potential of
our proposed recourse mechanism, indicating improvements in usability compared
to fixed-threshold toxicity-filtering of model outputs. Future work should
explore the intersection of toxicity scoring, model controllability, user
agency, and language reclamation processes -- particularly with regard to the
bias that many communities encounter when interacting with generative language
models.Summary
AI-Generated Summary