ChatPaper.aiChatPaper

PERSONA: Um Laboratório de Testes Reproduzível para Alinhamento Pluralístico

PERSONA: A Reproducible Testbed for Pluralistic Alignment

July 24, 2024
Autores: Louis Castricato, Nathan Lile, Rafael Rafailov, Jan-Philipp Fränken, Chelsea Finn
cs.AI

Resumo

O rápido avanço dos modelos de linguagem (LMs) torna necessária uma alinhamento robusto com diversos valores do usuário. No entanto, abordagens atuais de otimização de preferências frequentemente falham em capturar a pluralidade de opiniões dos usuários, em vez disso, reforçando pontos de vista majoritários e marginalizando perspectivas minoritárias. Apresentamos PERSONA, um ambiente de teste reprodutível projetado para avaliar e melhorar o alinhamento pluralístico de LMs. Geramos proceduralmente diversos perfis de usuários a partir de dados do censo dos EUA, resultando em 1.586 personas sintéticas com atributos demográficos e idiossincráticos variados. Em seguida, geramos um conjunto de dados de avaliação em larga escala contendo 3.868 prompts e 317.200 pares de feedback obtidos de nossas personas sintéticas. Aproveitando este conjunto de dados, avaliamos sistematicamente as capacidades dos LMs em interpretar papéis de usuários diversos, verificados por juízes humanos, e estabelecemos tanto um referencial, PERSONA Bench, para abordagens de alinhamento pluralístico, quanto um extenso conjunto de dados para criar novos e futuros referencias. O conjunto de dados completo e os referencias estão disponíveis em: https://www.synthlabs.ai/research/persona.
English
The rapid advancement of language models (LMs) necessitates robust alignment with diverse user values. However, current preference optimization approaches often fail to capture the plurality of user opinions, instead reinforcing majority viewpoints and marginalizing minority perspectives. We introduce PERSONA, a reproducible test bed designed to evaluate and improve pluralistic alignment of LMs. We procedurally generate diverse user profiles from US census data, resulting in 1,586 synthetic personas with varied demographic and idiosyncratic attributes. We then generate a large-scale evaluation dataset containing 3,868 prompts and 317,200 feedback pairs obtained from our synthetic personas. Leveraging this dataset, we systematically evaluate LM capabilities in role-playing diverse users, verified through human judges, and the establishment of both a benchmark, PERSONA Bench, for pluralistic alignment approaches as well as an extensive dataset to create new and future benchmarks. The full dataset and benchmarks are available here: https://www.synthlabs.ai/research/persona.

Summary

AI-Generated Summary

PDF202November 28, 2024