PingPong: un benchmark per modelli linguistici di role-playing con emulazione dell'utente e valutazione multi-modelloPingPong: A Benchmark for Role-Playing Language Models with User
Emulation and Multi-Model Evaluation
Introduciamo un nuovo benchmark per valutare le capacità di gioco di ruolo dei modelli linguistici. Il nostro approccio sfrutta i modelli linguistici stessi per emulare gli utenti in conversazioni dinamiche a più turni e valutare i dialoghi risultanti. Il framework è composto da tre componenti principali: un modello giocatore che assume un ruolo di personaggio specifico, un modello interrogatore che simula il comportamento dell'utente e un modello giudice che valuta la qualità della conversazione. Abbiamo condotto esperimenti confrontando le valutazioni automatizzate con le annotazioni umane per convalidare il nostro approccio, dimostrando forti correlazioni su diversi criteri. Questo lavoro fornisce una base per una valutazione robusta e dinamica delle capacità del modello in scenari interattivi.