Recurso para la reclamación: Conversando con modelos de lenguaje generativo
Recourse for reclamation: Chatting with generative language models
March 21, 2024
Autores: Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac
cs.AI
Resumen
Los investigadores y desarrolladores dependen cada vez más de la puntuación de toxicidad para moderar las salidas de los modelos de lenguaje generativo, en contextos como el servicio al cliente, la recuperación de información y la generación de contenido. Sin embargo, la puntuación de toxicidad puede hacer que información relevante sea inaccesible, rigidizar o "bloquear" normas culturales, y obstaculizar los procesos de reclamación lingüística, especialmente para personas marginadas. En este trabajo, extendemos el concepto de recurso algorítmico a los modelos de lenguaje generativo: ofrecemos a los usuarios un mecanismo novedoso para lograr su predicción deseada mediante el establecimiento dinámico de umbrales para el filtrado de toxicidad. De esta manera, los usuarios ejercen un mayor control en comparación con las interacciones con el sistema base. Un estudio piloto (n = 30) respalda el potencial de nuestro mecanismo de recurso propuesto, mostrando mejoras en la usabilidad frente al filtrado de toxicidad con umbrales fijos en las salidas del modelo. Trabajos futuros deberían explorar la intersección entre la puntuación de toxicidad, la controlabilidad del modelo, el control del usuario y los procesos de reclamación lingüística, especialmente en relación con el sesgo que muchas comunidades enfrentan al interactuar con modelos de lenguaje generativo.
English
Researchers and developers increasingly rely on toxicity scoring to moderate
generative language model outputs, in settings such as customer service,
information retrieval, and content generation. However, toxicity scoring may
render pertinent information inaccessible, rigidify or "value-lock" cultural
norms, and prevent language reclamation processes, particularly for
marginalized people. In this work, we extend the concept of algorithmic
recourse to generative language models: we provide users a novel mechanism to
achieve their desired prediction by dynamically setting thresholds for toxicity
filtering. Users thereby exercise increased agency relative to interactions
with the baseline system. A pilot study (n = 30) supports the potential of
our proposed recourse mechanism, indicating improvements in usability compared
to fixed-threshold toxicity-filtering of model outputs. Future work should
explore the intersection of toxicity scoring, model controllability, user
agency, and language reclamation processes -- particularly with regard to the
bias that many communities encounter when interacting with generative language
models.Summary
AI-Generated Summary