PingPong: Een benchmark voor taakspelende taalmodellen met gebruikersemulatie en multi-model evaluatie.PingPong: A Benchmark for Role-Playing Language Models with User
Emulation and Multi-Model Evaluation
We introduceren een nieuw benchmark voor het evalueren van de rolspelcapaciteiten van taalmodellen. Onze aanpak maakt gebruik van taalmodellen zelf om gebruikers na te bootsen in dynamische, meerdelige gesprekken en om de resulterende dialogen te beoordelen. Het raamwerk bestaat uit drie hoofdcomponenten: een spelermodel dat een specifieke karakterrol aanneemt, een ondervragermodel dat gebruikersgedrag simuleert, en een beoordelingsmodel dat de kwaliteit van het gesprek evalueert. We hebben experimenten uitgevoerd waarbij geautomatiseerde evaluaties werden vergeleken met menselijke annotaties om onze aanpak te valideren, waarbij sterke correlaties werden aangetoond over meerdere criteria. Dit werk legt een basis voor een robuuste en dynamische evaluatie van de capaciteiten van modellen in interactieve scenario's.