PingPong: Een Natuurlijke Benchmark voor Multi-Turn Code-Switching Dialogen
PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues
January 24, 2026
Auteurs: Mohammad Rifqi Farhansyah, Hanif Muhammad Zhafran, Farid Adilazuarda, Shamsuddeen Hassan Muhammad, Maryam Ibrahim Mukhtar, Nedjma Ousidhoum, Genta Indra Winata, Ayu Purwarianti, Alham Fikri Aji
cs.AI
Samenvatting
Codewisseling is een wijdverspreid fenomeen onder de meerderheid van de wereldbevolking die meertalig is, toch zijn er weinig ijkpunten die de complexiteit ervan in alledaagse communicatie accuraat weerspiegelen. Wij presenteren PingPong, een ijkpunt voor natuurlijke meerpartijcodewisselingsdialogen dat vijf taalcombinatievarianten omvat, waarvan sommige drietalig zijn. Onze dataset bestaat uit door mensen geschreven gesprekken tussen 2 tot 4 deelnemers, met authentieke, multithread-structuren waarin antwoorden vaak verwijzen naar veel eerdere punten in de dialoog. Wij tonen aan dat onze data aanzienlijk natuurlijker en structureel diverser is dan machinegegenereerde alternatieven, met meer variatie in berichtlengte, sprekersdominantie en antwoordafstand. Gebaseerd op deze dialogen definiëren wij drie downstreamtaken: Vraagbeantwoording, Dialoogsamenvatting en Onderwerpsclassificatie. Evaluaties van verschillende state-of-the-art taalmmodellen op PingPong tonen aan dat de prestaties op codewisselende invoer beperkt blijven, wat de dringende behoefte benadrukt aan robuustere NLP-systemen die de complexiteit van realistische meertalige discours kunnen adresseren.
English
Code-switching is a widespread practice among the world's multilingual majority, yet few benchmarks accurately reflect its complexity in everyday communication. We present PingPong, a benchmark for natural multi-party code-switching dialogues covering five language-combination variations, some of which are trilingual. Our dataset consists of human-authored conversations among 2 to 4 participants covering authentic, multi-threaded structures where replies frequently reference much earlier points in the dialogue. We demonstrate that our data is significantly more natural and structurally diverse than machine-generated alternatives, offering greater variation in message length, speaker dominance, and reply distance. Based on these dialogues, we define three downstream tasks: Question Answering, Dialogue Summarization, and Topic Classification. Evaluations of several state-of-the-art language models on PingPong reveal that performance remains limited on code-switched inputs, underscoring the urgent need for more robust NLP systems capable of addressing the intricacies of real-world multilingual discourse.