ChatPaper.aiChatPaper

PERSONA: Воспроизводимая платформа для плюралистического выравнивания

PERSONA: A Reproducible Testbed for Pluralistic Alignment

July 24, 2024
Авторы: Louis Castricato, Nathan Lile, Rafael Rafailov, Jan-Philipp Fränken, Chelsea Finn
cs.AI

Аннотация

Быстрое развитие языковых моделей (LMs) требует надежного выравнивания с разнообразными ценностями пользователей. Однако текущие подходы к оптимизации предпочтений часто не удается уловить множественность мнений пользователей, вместо этого укрепляя мнения большинства и маргинализируя меньшинственные точки зрения. Мы представляем PERSONA, воспроизводимую платформу, разработанную для оценки и улучшения плюралистического выравнивания LMs. Мы процедурно генерируем разнообразные профили пользователей на основе данных переписи населения США, что приводит к созданию 1 586 синтетических персон с разнообразными демографическими и идиосинкратическими характеристиками. Затем мы создаем крупномасштабный набор данных для оценки, содержащий 3 868 запросов и 317 200 пар обратной связи, полученных от наших синтетических персон. Используя этот набор данных, мы систематически оцениваем возможности LM в ролевой игре различных пользователей, подтвержденные судьями-людьми, и создаем как эталон, PERSONA Bench, для плюралистических подходов к выравниванию, так и обширный набор данных для создания новых и будущих эталонов. Полный набор данных и эталоны доступны здесь: https://www.synthlabs.ai/research/persona.
English
The rapid advancement of language models (LMs) necessitates robust alignment with diverse user values. However, current preference optimization approaches often fail to capture the plurality of user opinions, instead reinforcing majority viewpoints and marginalizing minority perspectives. We introduce PERSONA, a reproducible test bed designed to evaluate and improve pluralistic alignment of LMs. We procedurally generate diverse user profiles from US census data, resulting in 1,586 synthetic personas with varied demographic and idiosyncratic attributes. We then generate a large-scale evaluation dataset containing 3,868 prompts and 317,200 feedback pairs obtained from our synthetic personas. Leveraging this dataset, we systematically evaluate LM capabilities in role-playing diverse users, verified through human judges, and the establishment of both a benchmark, PERSONA Bench, for pluralistic alignment approaches as well as an extensive dataset to create new and future benchmarks. The full dataset and benchmarks are available here: https://www.synthlabs.ai/research/persona.

Summary

AI-Generated Summary

PDF202November 28, 2024