ChatPaper.aiChatPaper

PERSONA: 다원적 정렬을 위한 재현 가능한 테스트베드

PERSONA: A Reproducible Testbed for Pluralistic Alignment

July 24, 2024
저자: Louis Castricato, Nathan Lile, Rafael Rafailov, Jan-Philipp Fränken, Chelsea Finn
cs.AI

초록

언어 모델(LM)의 급속한 발전은 다양한 사용자 가치와의 견고한 정렬을 필요로 합니다. 그러나 현재의 선호도 최적화 접근법은 종종 사용자 의견의 다양성을 포착하지 못하고, 대신 다수 의견을 강화하며 소수 의견을 소외시키는 경향이 있습니다. 우리는 이러한 문제를 해결하기 위해 PERSONA를 소개합니다. PERSONA는 LM의 다원적 정렬을 평가하고 개선하기 위해 설계된 재현 가능한 테스트 베드입니다. 우리는 미국 인구 조사 데이터에서 다양한 사용자 프로필을 절차적으로 생성하여, 다양한 인구통계학적 및 개인적 특성을 가진 1,586개의 합성 페르소나를 만들었습니다. 그리고 이 합성 페르소나로부터 얻은 3,868개의 프롬프트와 317,200개의 피드백 쌍을 포함한 대규모 평가 데이터셋을 생성했습니다. 이 데이터셋을 활용하여, 우리는 LM이 다양한 사용자를 역할 수행하는 능력을 체계적으로 평가했으며, 이를 인간 평가자를 통해 검증했습니다. 또한, 다원적 정렬 접근법을 위한 벤치마크인 PERSONA Bench와 새로운 및 미래의 벤치마크를 생성하기 위한 광범위한 데이터셋을 구축했습니다. 전체 데이터셋과 벤치마크는 여기에서 확인할 수 있습니다: https://www.synthlabs.ai/research/persona.
English
The rapid advancement of language models (LMs) necessitates robust alignment with diverse user values. However, current preference optimization approaches often fail to capture the plurality of user opinions, instead reinforcing majority viewpoints and marginalizing minority perspectives. We introduce PERSONA, a reproducible test bed designed to evaluate and improve pluralistic alignment of LMs. We procedurally generate diverse user profiles from US census data, resulting in 1,586 synthetic personas with varied demographic and idiosyncratic attributes. We then generate a large-scale evaluation dataset containing 3,868 prompts and 317,200 feedback pairs obtained from our synthetic personas. Leveraging this dataset, we systematically evaluate LM capabilities in role-playing diverse users, verified through human judges, and the establishment of both a benchmark, PERSONA Bench, for pluralistic alignment approaches as well as an extensive dataset to create new and future benchmarks. The full dataset and benchmarks are available here: https://www.synthlabs.ai/research/persona.

Summary

AI-Generated Summary

PDF202November 28, 2024