ChatPaper.aiChatPaper

Rolspelende Evaluatie voor Grote Taalmodellen

Role-Playing Evaluation for Large Language Models

May 19, 2025
Auteurs: Yassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) tonen een opmerkelijke capaciteit voor het aannemen van persona's en het deelnemen aan rollenspellen. Het evalueren van deze vaardigheid brengt echter aanzienlijke uitdagingen met zich mee, aangezien menselijke beoordelingen arbeidsintensief zijn en geautomatiseerde evaluaties bevooroordeeld kunnen zijn. Om dit aan te pakken, introduceren we Role-Playing Eval (RPEval), een nieuwe benchmark die is ontworpen om de rollenspelvaardigheden van LLM's te beoordelen op vier belangrijke dimensies: emotioneel begrip, besluitvorming, morele afstemming en consistentie in karakter. Dit artikel beschrijft de opbouw van RPEval en presenteert basislijn-evaluaties. Onze code en dataset zijn beschikbaar op https://github.com/yelboudouri/RPEval.
English
Large Language Models (LLMs) demonstrate a notable capacity for adopting personas and engaging in role-playing. However, evaluating this ability presents significant challenges, as human assessments are resource-intensive and automated evaluations can be biased. To address this, we introduce Role-Playing Eval (RPEval), a novel benchmark designed to assess LLM role-playing capabilities across four key dimensions: emotional understanding, decision-making, moral alignment, and in-character consistency. This article details the construction of RPEval and presents baseline evaluations. Our code and dataset are available at https://github.com/yelboudouri/RPEval
PDF62June 2, 2025