Évaluation par jeu de rôle pour les grands modèles de langage
Role-Playing Evaluation for Large Language Models
May 19, 2025
Auteurs: Yassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter
cs.AI
Résumé
Les grands modèles de langage (LLMs) démontrent une capacité remarquable à adopter des personnalités et à s'engager dans des jeux de rôle. Cependant, évaluer cette aptitude présente des défis importants, car les évaluations humaines sont coûteuses en ressources et les évaluations automatisées peuvent être biaisées. Pour résoudre ce problème, nous introduisons Role-Playing Eval (RPEval), un nouveau benchmark conçu pour évaluer les capacités de jeu de rôle des LLMs selon quatre dimensions clés : la compréhension émotionnelle, la prise de décision, l'alignement moral et la cohérence dans le personnage. Cet article détaille la construction de RPEval et présente des évaluations de référence. Notre code et notre ensemble de données sont disponibles à l'adresse https://github.com/yelboudouri/RPEval.
English
Large Language Models (LLMs) demonstrate a notable capacity for adopting
personas and engaging in role-playing. However, evaluating this ability
presents significant challenges, as human assessments are resource-intensive
and automated evaluations can be biased. To address this, we introduce
Role-Playing Eval (RPEval), a novel benchmark designed to assess LLM
role-playing capabilities across four key dimensions: emotional understanding,
decision-making, moral alignment, and in-character consistency. This article
details the construction of RPEval and presents baseline evaluations. Our code
and dataset are available at https://github.com/yelboudouri/RPEval