Rolspelende Evaluatie voor Grote Taalmodellen
Role-Playing Evaluation for Large Language Models
May 19, 2025
Auteurs: Yassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) tonen een opmerkelijke capaciteit voor het aannemen van persona's en het deelnemen aan rollenspellen. Het evalueren van deze vaardigheid brengt echter aanzienlijke uitdagingen met zich mee, aangezien menselijke beoordelingen arbeidsintensief zijn en geautomatiseerde evaluaties bevooroordeeld kunnen zijn. Om dit aan te pakken, introduceren we Role-Playing Eval (RPEval), een nieuwe benchmark die is ontworpen om de rollenspelvaardigheden van LLM's te beoordelen op vier belangrijke dimensies: emotioneel begrip, besluitvorming, morele afstemming en consistentie in karakter. Dit artikel beschrijft de opbouw van RPEval en presenteert basislijn-evaluaties. Onze code en dataset zijn beschikbaar op https://github.com/yelboudouri/RPEval.
English
Large Language Models (LLMs) demonstrate a notable capacity for adopting
personas and engaging in role-playing. However, evaluating this ability
presents significant challenges, as human assessments are resource-intensive
and automated evaluations can be biased. To address this, we introduce
Role-Playing Eval (RPEval), a novel benchmark designed to assess LLM
role-playing capabilities across four key dimensions: emotional understanding,
decision-making, moral alignment, and in-character consistency. This article
details the construction of RPEval and presents baseline evaluations. Our code
and dataset are available at https://github.com/yelboudouri/RPEval