ChatPaper.aiChatPaper

PingPong: Ein Benchmark für Rollenspiel-Sprachmodelle mit Benutzeremulation und Multi-Modell-Evaluation.

PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

September 10, 2024
Autoren: Ilya Gusev
cs.AI

Zusammenfassung

Wir stellen einen neuen Maßstab zur Bewertung der Rollenspiel-Fähigkeiten von Sprachmodellen vor. Unser Ansatz nutzt Sprachmodelle selbst, um Benutzer in dynamischen, mehrstufigen Gesprächen zu imitieren und die resultierenden Dialoge zu bewerten. Das Framework besteht aus drei Hauptkomponenten: einem Spielermodell, das eine spezifische Charakterrolle annimmt, einem Befragermodell, das das Verhalten des Benutzers simuliert, und einem Richtermodell, das die Gesprächsqualität bewertet. Wir führten Experimente durch, die automatisierte Bewertungen mit menschlichen Annotationen verglichen, um unseren Ansatz zu validieren, und zeigten starke Korrelationen über mehrere Kriterien hinweg. Diese Arbeit legt den Grundstein für eine robuste und dynamische Bewertung der Fähigkeiten von Modellen in interaktiven Szenarien.
English
We introduce a novel benchmark for evaluating the role-playing capabilities of language models. Our approach leverages language models themselves to emulate users in dynamic, multi-turn conversations and to assess the resulting dialogues. The framework consists of three main components: a player model assuming a specific character role, an interrogator model simulating user behavior, and a judge model evaluating conversation quality. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of model capabilities in interactive scenarios.

Summary

AI-Generated Summary

PDF692November 16, 2024