PingPong: Een benchmark voor taakspelende taalmodellen met gebruikersemulatie en multi-model evaluatie.

Samenvatting

We introduceren een nieuw benchmark voor het evalueren van de rolspelcapaciteiten van taalmodellen. Onze aanpak maakt gebruik van taalmodellen zelf om gebruikers na te bootsen in dynamische, meerdelige gesprekken en om de resulterende dialogen te beoordelen. Het raamwerk bestaat uit drie hoofdcomponenten: een spelermodel dat een specifieke karakterrol aanneemt, een ondervragermodel dat gebruikersgedrag simuleert, en een beoordelingsmodel dat de kwaliteit van het gesprek evalueert. We hebben experimenten uitgevoerd waarbij geautomatiseerde evaluaties werden vergeleken met menselijke annotaties om onze aanpak te valideren, waarbij sterke correlaties werden aangetoond over meerdere criteria. Dit werk legt een basis voor een robuuste en dynamische evaluatie van de capaciteiten van modellen in interactieve scenario's.

English

We introduce a novel benchmark for evaluating the role-playing capabilities of language models. Our approach leverages language models themselves to emulate users in dynamic, multi-turn conversations and to assess the resulting dialogues. The framework consists of three main components: a player model assuming a specific character role, an interrogator model simulating user behavior, and a judge model evaluating conversation quality. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of model capabilities in interactive scenarios.

PingPong: Een benchmark voor taakspelende taalmodellen met gebruikersemulatie en multi-model evaluatie.

PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

Samenvatting

Summary

Support

Support