PingPong: Een benchmark voor taakspelende taalmodellen met gebruikersemulatie en multi-model evaluatie.
PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation
September 10, 2024
Auteurs: Ilya Gusev
cs.AI
Samenvatting
We introduceren een nieuw benchmark voor het evalueren van de rolspelcapaciteiten van taalmodellen. Onze aanpak maakt gebruik van taalmodellen zelf om gebruikers na te bootsen in dynamische, meerdelige gesprekken en om de resulterende dialogen te beoordelen. Het raamwerk bestaat uit drie hoofdcomponenten: een spelermodel dat een specifieke karakterrol aanneemt, een ondervragermodel dat gebruikersgedrag simuleert, en een beoordelingsmodel dat de kwaliteit van het gesprek evalueert. We hebben experimenten uitgevoerd waarbij geautomatiseerde evaluaties werden vergeleken met menselijke annotaties om onze aanpak te valideren, waarbij sterke correlaties werden aangetoond over meerdere criteria. Dit werk legt een basis voor een robuuste en dynamische evaluatie van de capaciteiten van modellen in interactieve scenario's.
English
We introduce a novel benchmark for evaluating the role-playing capabilities
of language models. Our approach leverages language models themselves to
emulate users in dynamic, multi-turn conversations and to assess the resulting
dialogues. The framework consists of three main components: a player model
assuming a specific character role, an interrogator model simulating user
behavior, and a judge model evaluating conversation quality. We conducted
experiments comparing automated evaluations with human annotations to validate
our approach, demonstrating strong correlations across multiple criteria. This
work provides a foundation for a robust and dynamic evaluation of model
capabilities in interactive scenarios.Summary
AI-Generated Summary