PingPong : Un banc d'essai pour les modÚles de langage de jeu de rÎle avec émulation d'utilisateur et évaluation multi-modÚlesPingPong: A Benchmark for Role-Playing Language Models with User
Emulation and Multi-Model Evaluation
Nous introduisons un nouveau rĂ©fĂ©rentiel pour Ă©valuer les capacitĂ©s de jeu de rĂŽle des modĂšles de langage. Notre approche exploite les modĂšles de langage eux-mĂȘmes pour imiter les utilisateurs dans des conversations dynamiques et multi-tours et pour Ă©valuer les dialogues rĂ©sultants. Le cadre se compose de trois composants principaux : un modĂšle de joueur assumant un rĂŽle de personnage spĂ©cifique, un modĂšle d'interrogateur simulant le comportement de l'utilisateur, et un modĂšle de juge Ă©valuant la qualitĂ© de la conversation. Nous avons menĂ© des expĂ©riences comparant les Ă©valuations automatisĂ©es avec des annotations humaines pour valider notre approche, dĂ©montrant de fortes corrĂ©lations sur plusieurs critĂšres. Ce travail pose les bases d'une Ă©valuation robuste et dynamique des capacitĂ©s des modĂšles dans des scĂ©narios interactifs.