PingPong: Un Punto de Referencia Natural para Diálogos de Alternancia de Código en Múltiples Turnos
PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues
January 24, 2026
Autores: Mohammad Rifqi Farhansyah, Hanif Muhammad Zhafran, Farid Adilazuarda, Shamsuddeen Hassan Muhammad, Maryam Ibrahim Mukhtar, Nedjma Ousidhoum, Genta Indra Winata, Ayu Purwarianti, Alham Fikri Aji
cs.AI
Resumen
El cambio de código es una práctica extendida entre la mayoría multilingüe del mundo, sin embargo, pocos puntos de referencia reflejan con precisión su complejidad en la comunicación cotidiana. Presentamos PingPong, un punto de referencia para diálogos naturales de cambio de código entre múltiples participantes que cubre cinco variaciones de combinaciones lingüísticas, algunas de ellas trilingües. Nuestro conjunto de datos consiste en conversaciones creadas por humanos entre 2 y 4 participantes que abarcan estructuras auténticas y multifacéticas, donde las respuestas frecuentemente hacen referencia a puntos mucho más tempranos en el diálogo. Demostramos que nuestros datos son significativamente más naturales y estructuralmente diversos que las alternativas generadas por máquina, ofreciendo una mayor variación en la longitud de los mensajes, el dominio del hablante y la distancia de respuesta. Basándonos en estos diálogos, definimos tres tareas derivadas: Respuesta a Preguntas, Resumen de Diálogos y Clasificación Temática. Las evaluaciones de varios modelos de lenguaje de última generación en PingPong revelan que el rendimiento sigue siendo limitado con entradas de cambio de código, subrayando la necesidad urgente de sistemas de PLN más robustos capaces de abordar las complejidades del discurso multilingüe del mundo real.
English
Code-switching is a widespread practice among the world's multilingual majority, yet few benchmarks accurately reflect its complexity in everyday communication. We present PingPong, a benchmark for natural multi-party code-switching dialogues covering five language-combination variations, some of which are trilingual. Our dataset consists of human-authored conversations among 2 to 4 participants covering authentic, multi-threaded structures where replies frequently reference much earlier points in the dialogue. We demonstrate that our data is significantly more natural and structurally diverse than machine-generated alternatives, offering greater variation in message length, speaker dominance, and reply distance. Based on these dialogues, we define three downstream tasks: Question Answering, Dialogue Summarization, and Topic Classification. Evaluations of several state-of-the-art language models on PingPong reveal that performance remains limited on code-switched inputs, underscoring the urgent need for more robust NLP systems capable of addressing the intricacies of real-world multilingual discourse.