PingPong : Un banc d'essai pour les modèles de langage de jeu de rôle avec émulation d'utilisateur et évaluation multi-modèles

Résumé

Nous introduisons un nouveau référentiel pour évaluer les capacités de jeu de rôle des modèles de langage. Notre approche exploite les modèles de langage eux-mêmes pour imiter les utilisateurs dans des conversations dynamiques et multi-tours et pour évaluer les dialogues résultants. Le cadre se compose de trois composants principaux : un modèle de joueur assumant un rôle de personnage spécifique, un modèle d'interrogateur simulant le comportement de l'utilisateur, et un modèle de juge évaluant la qualité de la conversation. Nous avons mené des expériences comparant les évaluations automatisées avec des annotations humaines pour valider notre approche, démontrant de fortes corrélations sur plusieurs critères. Ce travail pose les bases d'une évaluation robuste et dynamique des capacités des modèles dans des scénarios interactifs.

English

We introduce a novel benchmark for evaluating the role-playing capabilities of language models. Our approach leverages language models themselves to emulate users in dynamic, multi-turn conversations and to assess the resulting dialogues. The framework consists of three main components: a player model assuming a specific character role, an interrogator model simulating user behavior, and a judge model evaluating conversation quality. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of model capabilities in interactive scenarios.