PingPong: Um Benchmark para Modelos de Linguagem de Role-Playing com Emulação de Usuário e Avaliação Multi-Modelo
PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation
September 10, 2024
Autores: Ilya Gusev
cs.AI
Resumo
Apresentamos um novo referencial para avaliar as capacidades de interpretação de papéis dos modelos de linguagem. Nossa abordagem utiliza os próprios modelos de linguagem para simular usuários em conversas dinâmicas de múltiplas rodadas e avaliar os diálogos resultantes. O framework é composto por três componentes principais: um modelo de jogador assumindo um papel de personagem específico, um modelo de interrogador simulando o comportamento do usuário e um modelo de juiz avaliando a qualidade da conversa. Realizamos experimentos comparando avaliações automatizadas com anotações humanas para validar nossa abordagem, demonstrando fortes correlações em vários critérios. Este trabalho estabelece uma base para uma avaliação robusta e dinâmica das capacidades do modelo em cenários interativos.
English
We introduce a novel benchmark for evaluating the role-playing capabilities
of language models. Our approach leverages language models themselves to
emulate users in dynamic, multi-turn conversations and to assess the resulting
dialogues. The framework consists of three main components: a player model
assuming a specific character role, an interrogator model simulating user
behavior, and a judge model evaluating conversation quality. We conducted
experiments comparing automated evaluations with human annotations to validate
our approach, demonstrating strong correlations across multiple criteria. This
work provides a foundation for a robust and dynamic evaluation of model
capabilities in interactive scenarios.Summary
AI-Generated Summary