Recurso para reivindicação: Conversando com modelos de linguagem generativos
Recourse for reclamation: Chatting with generative language models
March 21, 2024
Autores: Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac
cs.AI
Resumo
Pesquisadores e desenvolvedores estão cada vez mais dependendo da pontuação de toxicidade para moderar as saídas de modelos de linguagem generativa, em contextos como atendimento ao cliente, recuperação de informações e geração de conteúdo. No entanto, a pontuação de toxicidade pode tornar informações pertinentes inacessíveis, rigidificar ou "bloquear" normas culturais, e impedir processos de reapropriação linguística, especialmente para pessoas marginalizadas. Neste trabalho, estendemos o conceito de recurso algorítmico para modelos de linguagem generativa: fornecemos aos usuários um mecanismo inovador para alcançar a previsão desejada, definindo dinamicamente limiares para a filtragem de toxicidade. Dessa forma, os usuários exercem maior agência em relação às interações com o sistema básico. Um estudo piloto (n = 30) apoia o potencial do nosso mecanismo de recurso proposto, indicando melhorias na usabilidade em comparação com a filtragem de toxicidade de saídas do modelo com limiares fixos. Trabalhos futuros devem explorar a interseção entre pontuação de toxicidade, controlabilidade do modelo, agência do usuário e processos de reapropriação linguística — particularmente no que diz respeito ao viés que muitas comunidades enfrentam ao interagir com modelos de linguagem generativa.
English
Researchers and developers increasingly rely on toxicity scoring to moderate
generative language model outputs, in settings such as customer service,
information retrieval, and content generation. However, toxicity scoring may
render pertinent information inaccessible, rigidify or "value-lock" cultural
norms, and prevent language reclamation processes, particularly for
marginalized people. In this work, we extend the concept of algorithmic
recourse to generative language models: we provide users a novel mechanism to
achieve their desired prediction by dynamically setting thresholds for toxicity
filtering. Users thereby exercise increased agency relative to interactions
with the baseline system. A pilot study (n = 30) supports the potential of
our proposed recourse mechanism, indicating improvements in usability compared
to fixed-threshold toxicity-filtering of model outputs. Future work should
explore the intersection of toxicity scoring, model controllability, user
agency, and language reclamation processes -- particularly with regard to the
bias that many communities encounter when interacting with generative language
models.