Evaluación de Juego de Roles para Modelos de Lenguaje de Gran Escala

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran una capacidad notable para adoptar personajes y participar en juegos de roles. Sin embargo, evaluar esta habilidad presenta desafíos significativos, ya que las evaluaciones humanas requieren muchos recursos y las evaluaciones automatizadas pueden estar sesgadas. Para abordar esto, presentamos Role-Playing Eval (RPEval), un nuevo punto de referencia diseñado para evaluar las capacidades de los LLMs en juegos de roles a través de cuatro dimensiones clave: comprensión emocional, toma de decisiones, alineación moral y consistencia en el personaje. Este artículo detalla la construcción de RPEval y presenta evaluaciones de referencia. Nuestro código y conjunto de datos están disponibles en https://github.com/yelboudouri/RPEval.

English

Large Language Models (LLMs) demonstrate a notable capacity for adopting personas and engaging in role-playing. However, evaluating this ability presents significant challenges, as human assessments are resource-intensive and automated evaluations can be biased. To address this, we introduce Role-Playing Eval (RPEval), a novel benchmark designed to assess LLM role-playing capabilities across four key dimensions: emotional understanding, decision-making, moral alignment, and in-character consistency. This article details the construction of RPEval and presents baseline evaluations. Our code and dataset are available at https://github.com/yelboudouri/RPEval

Evaluación de Juego de Roles para Modelos de Lenguaje de Gran Escala

Role-Playing Evaluation for Large Language Models

Resumen

Support