PingPong: un benchmark per modelli linguistici di role-playing con emulazione dell'utente e valutazione multi-modello
PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation
September 10, 2024
Autori: Ilya Gusev
cs.AI
Abstract
Introduciamo un nuovo benchmark per valutare le capacità di gioco di ruolo dei modelli linguistici. Il nostro approccio sfrutta i modelli linguistici stessi per emulare gli utenti in conversazioni dinamiche a più turni e valutare i dialoghi risultanti. Il framework è composto da tre componenti principali: un modello giocatore che assume un ruolo di personaggio specifico, un modello interrogatore che simula il comportamento dell'utente e un modello giudice che valuta la qualità della conversazione. Abbiamo condotto esperimenti confrontando le valutazioni automatizzate con le annotazioni umane per convalidare il nostro approccio, dimostrando forti correlazioni su diversi criteri. Questo lavoro fornisce una base per una valutazione robusta e dinamica delle capacità del modello in scenari interattivi.
English
We introduce a novel benchmark for evaluating the role-playing capabilities
of language models. Our approach leverages language models themselves to
emulate users in dynamic, multi-turn conversations and to assess the resulting
dialogues. The framework consists of three main components: a player model
assuming a specific character role, an interrogator model simulating user
behavior, and a judge model evaluating conversation quality. We conducted
experiments comparing automated evaluations with human annotations to validate
our approach, demonstrating strong correlations across multiple criteria. This
work provides a foundation for a robust and dynamic evaluation of model
capabilities in interactive scenarios.Summary
AI-Generated Summary