Evaluación de Juego de Roles para Modelos de Lenguaje de Gran Escala
Role-Playing Evaluation for Large Language Models
May 19, 2025
Autores: Yassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran una capacidad notable para adoptar personajes y participar en juegos de roles. Sin embargo, evaluar esta habilidad presenta desafíos significativos, ya que las evaluaciones humanas requieren muchos recursos y las evaluaciones automatizadas pueden estar sesgadas. Para abordar esto, presentamos Role-Playing Eval (RPEval), un nuevo punto de referencia diseñado para evaluar las capacidades de los LLMs en juegos de roles a través de cuatro dimensiones clave: comprensión emocional, toma de decisiones, alineación moral y consistencia en el personaje. Este artículo detalla la construcción de RPEval y presenta evaluaciones de referencia. Nuestro código y conjunto de datos están disponibles en https://github.com/yelboudouri/RPEval.
English
Large Language Models (LLMs) demonstrate a notable capacity for adopting
personas and engaging in role-playing. However, evaluating this ability
presents significant challenges, as human assessments are resource-intensive
and automated evaluations can be biased. To address this, we introduce
Role-Playing Eval (RPEval), a novel benchmark designed to assess LLM
role-playing capabilities across four key dimensions: emotional understanding,
decision-making, moral alignment, and in-character consistency. This article
details the construction of RPEval and presents baseline evaluations. Our code
and dataset are available at https://github.com/yelboudouri/RPEval