PingPong: Um Benchmark para Modelos de Linguagem de Role-Playing com Emulação de Usuário e Avaliação Multi-ModeloPingPong: A Benchmark for Role-Playing Language Models with User
Emulation and Multi-Model Evaluation
Apresentamos um novo referencial para avaliar as capacidades de interpretação de papéis dos modelos de linguagem. Nossa abordagem utiliza os próprios modelos de linguagem para simular usuários em conversas dinâmicas de múltiplas rodadas e avaliar os diálogos resultantes. O framework é composto por três componentes principais: um modelo de jogador assumindo um papel de personagem específico, um modelo de interrogador simulando o comportamento do usuário e um modelo de juiz avaliando a qualidade da conversa. Realizamos experimentos comparando avaliações automatizadas com anotações humanas para validar nossa abordagem, demonstrando fortes correlações em vários critérios. Este trabalho estabelece uma base para uma avaliação robusta e dinâmica das capacidades do modelo em cenários interativos.