PingPong: Un Benchmark Naturale per Dialoghi con Code-Switching a Turni Multipli
PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues
January 24, 2026
Autori: Mohammad Rifqi Farhansyah, Hanif Muhammad Zhafran, Farid Adilazuarda, Shamsuddeen Hassan Muhammad, Maryam Ibrahim Mukhtar, Nedjma Ousidhoum, Genta Indra Winata, Ayu Purwarianti, Alham Fikri Aji
cs.AI
Abstract
Il code-switching è una pratica diffusa tra la maggioranza multilingue mondiale, eppure pochi benchmark ne riflettono accuratamente la complessità nella comunicazione quotidiana. Presentiamo PingPong, un benchmark per dialoghi naturali di code-switching tra più interlocutori, che copre cinque variazioni di combinazioni linguistiche, alcune delle quali trilingui. Il nostro dataset è composto da conversazioni create da esseri umani tra 2 e 4 partecipanti, che presentano strutture autentiche e multi-thread in cui le risposte fanno spesso riferimento a punti molto precedenti del dialogo. Dimostriamo che i nostri dati sono significativamente più naturali e strutturalmente diversificati rispetto alle alternative generate automaticamente, offrendo una maggiore variazione nella lunghezza dei messaggi, nella dominanza del parlante e nella distanza di risposta. Sulla base di questi dialoghi, definiamo tre task downstream: Question Answering, Riassunto del Dialogo e Classificazione per Argomenti. Le valutazioni di diversi modelli linguistici all'avanguardia su PingPong rivelano che le prestazioni rimangono limitate sugli input con code-switching, sottolineando l'urgente necessità di sistemi di NLP più robusti in grado di affrontare le complessità del discorso multilingue nel mondo reale.
English
Code-switching is a widespread practice among the world's multilingual majority, yet few benchmarks accurately reflect its complexity in everyday communication. We present PingPong, a benchmark for natural multi-party code-switching dialogues covering five language-combination variations, some of which are trilingual. Our dataset consists of human-authored conversations among 2 to 4 participants covering authentic, multi-threaded structures where replies frequently reference much earlier points in the dialogue. We demonstrate that our data is significantly more natural and structurally diverse than machine-generated alternatives, offering greater variation in message length, speaker dominance, and reply distance. Based on these dialogues, we define three downstream tasks: Question Answering, Dialogue Summarization, and Topic Classification. Evaluations of several state-of-the-art language models on PingPong reveal that performance remains limited on code-switched inputs, underscoring the urgent need for more robust NLP systems capable of addressing the intricacies of real-world multilingual discourse.