ChatPaper.aiChatPaper

PingPong : Un banc d'essai pour les modèles de langage de jeu de rôle avec émulation d'utilisateur et évaluation multi-modèles

PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

September 10, 2024
Auteurs: Ilya Gusev
cs.AI

Résumé

Nous introduisons un nouveau référentiel pour évaluer les capacités de jeu de rôle des modèles de langage. Notre approche exploite les modèles de langage eux-mêmes pour imiter les utilisateurs dans des conversations dynamiques et multi-tours et pour évaluer les dialogues résultants. Le cadre se compose de trois composants principaux : un modèle de joueur assumant un rôle de personnage spécifique, un modèle d'interrogateur simulant le comportement de l'utilisateur, et un modèle de juge évaluant la qualité de la conversation. Nous avons mené des expériences comparant les évaluations automatisées avec des annotations humaines pour valider notre approche, démontrant de fortes corrélations sur plusieurs critères. Ce travail pose les bases d'une évaluation robuste et dynamique des capacités des modèles dans des scénarios interactifs.
English
We introduce a novel benchmark for evaluating the role-playing capabilities of language models. Our approach leverages language models themselves to emulate users in dynamic, multi-turn conversations and to assess the resulting dialogues. The framework consists of three main components: a player model assuming a specific character role, an interrogator model simulating user behavior, and a judge model evaluating conversation quality. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of model capabilities in interactive scenarios.

Summary

AI-Generated Summary

PDF692November 16, 2024