Évaluation par jeu de rôle pour les grands modèles de langage

papers.abstract

Les grands modèles de langage (LLMs) démontrent une capacité remarquable à adopter des personnalités et à s'engager dans des jeux de rôle. Cependant, évaluer cette aptitude présente des défis importants, car les évaluations humaines sont coûteuses en ressources et les évaluations automatisées peuvent être biaisées. Pour résoudre ce problème, nous introduisons Role-Playing Eval (RPEval), un nouveau benchmark conçu pour évaluer les capacités de jeu de rôle des LLMs selon quatre dimensions clés : la compréhension émotionnelle, la prise de décision, l'alignement moral et la cohérence dans le personnage. Cet article détaille la construction de RPEval et présente des évaluations de référence. Notre code et notre ensemble de données sont disponibles à l'adresse https://github.com/yelboudouri/RPEval.

English

Large Language Models (LLMs) demonstrate a notable capacity for adopting personas and engaging in role-playing. However, evaluating this ability presents significant challenges, as human assessments are resource-intensive and automated evaluations can be biased. To address this, we introduce Role-Playing Eval (RPEval), a novel benchmark designed to assess LLM role-playing capabilities across four key dimensions: emotional understanding, decision-making, moral alignment, and in-character consistency. This article details the construction of RPEval and presents baseline evaluations. Our code and dataset are available at https://github.com/yelboudouri/RPEval

Évaluation par jeu de rôle pour les grands modèles de langage

Role-Playing Evaluation for Large Language Models

papers.abstract

Support