PERSONA: Um Laboratório de Testes Reproduzível para Alinhamento Pluralístico
PERSONA: A Reproducible Testbed for Pluralistic Alignment
July 24, 2024
Autores: Louis Castricato, Nathan Lile, Rafael Rafailov, Jan-Philipp Fränken, Chelsea Finn
cs.AI
Resumo
O rápido avanço dos modelos de linguagem (LMs) torna necessária uma alinhamento robusto com diversos valores do usuário. No entanto, abordagens atuais de otimização de preferências frequentemente falham em capturar a pluralidade de opiniões dos usuários, em vez disso, reforçando pontos de vista majoritários e marginalizando perspectivas minoritárias. Apresentamos PERSONA, um ambiente de teste reprodutível projetado para avaliar e melhorar o alinhamento pluralístico de LMs. Geramos proceduralmente diversos perfis de usuários a partir de dados do censo dos EUA, resultando em 1.586 personas sintéticas com atributos demográficos e idiossincráticos variados. Em seguida, geramos um conjunto de dados de avaliação em larga escala contendo 3.868 prompts e 317.200 pares de feedback obtidos de nossas personas sintéticas. Aproveitando este conjunto de dados, avaliamos sistematicamente as capacidades dos LMs em interpretar papéis de usuários diversos, verificados por juízes humanos, e estabelecemos tanto um referencial, PERSONA Bench, para abordagens de alinhamento pluralístico, quanto um extenso conjunto de dados para criar novos e futuros referencias. O conjunto de dados completo e os referencias estão disponíveis em: https://www.synthlabs.ai/research/persona.
English
The rapid advancement of language models (LMs) necessitates robust alignment
with diverse user values. However, current preference optimization approaches
often fail to capture the plurality of user opinions, instead reinforcing
majority viewpoints and marginalizing minority perspectives. We introduce
PERSONA, a reproducible test bed designed to evaluate and improve pluralistic
alignment of LMs. We procedurally generate diverse user profiles from US census
data, resulting in 1,586 synthetic personas with varied demographic and
idiosyncratic attributes. We then generate a large-scale evaluation dataset
containing 3,868 prompts and 317,200 feedback pairs obtained from our synthetic
personas. Leveraging this dataset, we systematically evaluate LM capabilities
in role-playing diverse users, verified through human judges, and the
establishment of both a benchmark, PERSONA Bench, for pluralistic alignment
approaches as well as an extensive dataset to create new and future benchmarks.
The full dataset and benchmarks are available here:
https://www.synthlabs.ai/research/persona.Summary
AI-Generated Summary