PingPong: un benchmark per modelli linguistici di role-playing con emulazione dell'utente e valutazione multi-modello

Abstract

Introduciamo un nuovo benchmark per valutare le capacità di gioco di ruolo dei modelli linguistici. Il nostro approccio sfrutta i modelli linguistici stessi per emulare gli utenti in conversazioni dinamiche a più turni e valutare i dialoghi risultanti. Il framework è composto da tre componenti principali: un modello giocatore che assume un ruolo di personaggio specifico, un modello interrogatore che simula il comportamento dell'utente e un modello giudice che valuta la qualità della conversazione. Abbiamo condotto esperimenti confrontando le valutazioni automatizzate con le annotazioni umane per convalidare il nostro approccio, dimostrando forti correlazioni su diversi criteri. Questo lavoro fornisce una base per una valutazione robusta e dinamica delle capacità del modello in scenari interattivi.

English

We introduce a novel benchmark for evaluating the role-playing capabilities of language models. Our approach leverages language models themselves to emulate users in dynamic, multi-turn conversations and to assess the resulting dialogues. The framework consists of three main components: a player model assuming a specific character role, an interrogator model simulating user behavior, and a judge model evaluating conversation quality. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of model capabilities in interactive scenarios.

PingPong: un benchmark per modelli linguistici di role-playing con emulazione dell'utente e valutazione multi-modello

PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

Abstract

Summary

Support

Support