Revelación de Valores y Opiniones Detallados en Modelos de Lenguaje de Gran Escala
Revealing Fine-Grained Values and Opinions in Large Language Models
June 27, 2024
Autores: Dustin Wright, Arnav Arora, Nadav Borenstein, Srishti Yadav, Serge Belongie, Isabelle Augenstein
cs.AI
Resumen
Descubrir valores y opiniones latentes en grandes modelos de lenguaje (LLMs) puede ayudar a identificar sesgos y mitigar posibles daños. Recientemente, esto se ha abordado presentando a los LLMs preguntas de encuestas y cuantificando sus posturas hacia afirmaciones moral y políticamente cargadas. Sin embargo, las posturas generadas por los LLMs pueden variar considerablemente dependiendo de cómo se les incite, y hay muchas formas de argumentar a favor o en contra de una posición dada. En este trabajo, proponemos abordar esto analizando un conjunto de datos grande y robusto de 156k respuestas de LLM a las 62 proposiciones del Test de la Brújula Política (PCT) generadas por 6 LLMs utilizando 420 variaciones de estímulos. Realizamos un análisis de grano grueso de las posturas generadas y un análisis de grano fino de las justificaciones en texto plano de esas posturas. Para el análisis de grano fino, proponemos identificar tropos en las respuestas: frases semánticamente similares que son recurrentes y consistentes en diferentes estímulos, revelando patrones en el texto que un determinado LLM tiende a producir. Descubrimos que las características demográficas añadidas a los estímulos afectan significativamente los resultados en el PCT, reflejando sesgos, así como disparidades entre los resultados de pruebas al obtener respuestas de dominio cerrado frente a dominio abierto. Además, los patrones en las justificaciones en texto plano a través de tropos muestran que se generan justificaciones similares repetidamente entre modelos y estímulos, incluso con posturas dispares.
English
Uncovering latent values and opinions in large language models (LLMs) can
help identify biases and mitigate potential harm. Recently, this has been
approached by presenting LLMs with survey questions and quantifying their
stances towards morally and politically charged statements. However, the
stances generated by LLMs can vary greatly depending on how they are prompted,
and there are many ways to argue for or against a given position. In this work,
we propose to address this by analysing a large and robust dataset of 156k LLM
responses to the 62 propositions of the Political Compass Test (PCT) generated
by 6 LLMs using 420 prompt variations. We perform coarse-grained analysis of
their generated stances and fine-grained analysis of the plain text
justifications for those stances. For fine-grained analysis, we propose to
identify tropes in the responses: semantically similar phrases that are
recurrent and consistent across different prompts, revealing patterns in the
text that a given LLM is prone to produce. We find that demographic features
added to prompts significantly affect outcomes on the PCT, reflecting bias, as
well as disparities between the results of tests when eliciting closed-form vs.
open domain responses. Additionally, patterns in the plain text rationales via
tropes show that similar justifications are repeatedly generated across models
and prompts even with disparate stances.Summary
AI-Generated Summary