PingPong: Um Benchmark para Modelos de Linguagem de Role-Playing com Emulação de Usuário e Avaliação Multi-Modelo

Resumo

Apresentamos um novo referencial para avaliar as capacidades de interpretação de papéis dos modelos de linguagem. Nossa abordagem utiliza os próprios modelos de linguagem para simular usuários em conversas dinâmicas de múltiplas rodadas e avaliar os diálogos resultantes. O framework é composto por três componentes principais: um modelo de jogador assumindo um papel de personagem específico, um modelo de interrogador simulando o comportamento do usuário e um modelo de juiz avaliando a qualidade da conversa. Realizamos experimentos comparando avaliações automatizadas com anotações humanas para validar nossa abordagem, demonstrando fortes correlações em vários critérios. Este trabalho estabelece uma base para uma avaliação robusta e dinâmica das capacidades do modelo em cenários interativos.

English

We introduce a novel benchmark for evaluating the role-playing capabilities of language models. Our approach leverages language models themselves to emulate users in dynamic, multi-turn conversations and to assess the resulting dialogues. The framework consists of three main components: a player model assuming a specific character role, an interrogator model simulating user behavior, and a judge model evaluating conversation quality. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of model capabilities in interactive scenarios.

PingPong: Um Benchmark para Modelos de Linguagem de Role-Playing com Emulação de Usuário e Avaliação Multi-Modelo

PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

Resumo

Support