PingPong: Un Banco de Pruebas para Modelos de Lenguaje de Rol con Emulación de Usuario y Evaluación Multi-Modelo
PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation
September 10, 2024
Autores: Ilya Gusev
cs.AI
Resumen
Introducimos un nuevo punto de referencia para evaluar las capacidades de juego de roles de los modelos de lenguaje. Nuestro enfoque aprovecha los propios modelos de lenguaje para emular a los usuarios en conversaciones dinámicas y multi-turno y para evaluar los diálogos resultantes. El marco consta de tres componentes principales: un modelo de jugador que asume un rol de personaje específico, un modelo interrogador que simula el comportamiento del usuario, y un modelo juez que evalúa la calidad de la conversación. Realizamos experimentos comparando evaluaciones automatizadas con anotaciones humanas para validar nuestro enfoque, demostrando fuertes correlaciones en múltiples criterios. Este trabajo proporciona una base para una evaluación robusta y dinámica de las capacidades del modelo en escenarios interactivos.
English
We introduce a novel benchmark for evaluating the role-playing capabilities
of language models. Our approach leverages language models themselves to
emulate users in dynamic, multi-turn conversations and to assess the resulting
dialogues. The framework consists of three main components: a player model
assuming a specific character role, an interrogator model simulating user
behavior, and a judge model evaluating conversation quality. We conducted
experiments comparing automated evaluations with human annotations to validate
our approach, demonstrating strong correlations across multiple criteria. This
work provides a foundation for a robust and dynamic evaluation of model
capabilities in interactive scenarios.Summary
AI-Generated Summary