ChatPaper.aiChatPaper

PingPong: Ein natürlicher Benchmark für mehrteilige Code-Switching-Dialoge

PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues

January 24, 2026
papers.authors: Mohammad Rifqi Farhansyah, Hanif Muhammad Zhafran, Farid Adilazuarda, Shamsuddeen Hassan Muhammad, Maryam Ibrahim Mukhtar, Nedjma Ousidhoum, Genta Indra Winata, Ayu Purwarianti, Alham Fikri Aji
cs.AI

papers.abstract

Code-Switching ist eine weit verbreitete Praxis unter der mehrsprachigen Weltbevölkerung, doch nur wenige Benchmarks bilden deren Komplexität in der alltäglichen Kommunikation genau ab. Wir stellen PingPong vor, einen Benchmark für natürliche, mehrseitige Code-Switching-Dialoge, der fünf Sprachkombinations-Varianten abdeckt, von denen einige dreisprachig sind. Unser Datensatz besteht von Menschen verfassten Gesprächen zwischen 2 und 4 Teilnehmern, die authentische, vielschichtige Strukturen aufweisen, in denen Antworten häufig auf wesentlich frühere Punkte im Dialog verweisen. Wir zeigen, dass unsere Daten deutlich natürlicher und strukturell vielfältiger sind als maschinell generierte Alternativen und eine größere Variation in Nachrichtenlänge, Sprecherdominanz und Antwortabstand bieten. Basierend auf diesen Dialogen definieren wir drei nachgelagerte Aufgaben: Fragebeantwortung, Dialogzusammenfassung und Themenklassifizierung. Die Evaluierung mehrerer modernster Sprachmodelle anhand von PingPong zeigt, dass die Leistung bei Code-Switching-Eingaben nach wie vor begrenzt ist, was den dringenden Bedarf an robusteren NLP-Systemen unterstreicht, die die Feinheiten realer mehrsprachiger Diskurse bewältigen können.
English
Code-switching is a widespread practice among the world's multilingual majority, yet few benchmarks accurately reflect its complexity in everyday communication. We present PingPong, a benchmark for natural multi-party code-switching dialogues covering five language-combination variations, some of which are trilingual. Our dataset consists of human-authored conversations among 2 to 4 participants covering authentic, multi-threaded structures where replies frequently reference much earlier points in the dialogue. We demonstrate that our data is significantly more natural and structurally diverse than machine-generated alternatives, offering greater variation in message length, speaker dominance, and reply distance. Based on these dialogues, we define three downstream tasks: Question Answering, Dialogue Summarization, and Topic Classification. Evaluations of several state-of-the-art language models on PingPong reveal that performance remains limited on code-switched inputs, underscoring the urgent need for more robust NLP systems capable of addressing the intricacies of real-world multilingual discourse.
PDF21January 28, 2026