ChatPaper.aiChatPaper

PingPong : Un Benchmark Naturel pour les Dialogues en Changement de Code en Tours Multiples

PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues

January 24, 2026
papers.authors: Mohammad Rifqi Farhansyah, Hanif Muhammad Zhafran, Farid Adilazuarda, Shamsuddeen Hassan Muhammad, Maryam Ibrahim Mukhtar, Nedjma Ousidhoum, Genta Indra Winata, Ayu Purwarianti, Alham Fikri Aji
cs.AI

papers.abstract

L'alternance codique est une pratique répandue parmi la majorité multilingue mondiale, mais peu de benchmarks en reflètent fidèlement la complexité dans la communication quotidienne. Nous présentons PingPong, un benchmark pour des dialogues naturels d'alternance codique multipartite couvrant cinq combinaisons linguistiques, certaines étant trilingues. Notre jeu de données comprend des conversations rédigées par des humains entre 2 et 4 participants, présentant des structures authentiques et multithread où les réponses font fréquemment référence à des points bien antérieurs dans le dialogue. Nous démontrons que nos données sont nettement plus naturelles et structurellement diversifiées que les alternatives générées automatiquement, offrant une plus grande variation dans la longueur des messages, la dominance des locuteurs et la distance des réponses. Sur la base de ces dialogues, nous définissons trois tâches en aval : Question-Réponse, Résumé de Dialogue et Classification Thématique. L'évaluation de plusieurs modèles de langage de pointe sur PingPong révèle que les performances restent limitées sur des entrées en alternance codique, soulignant le besoin urgent de systèmes de TAL plus robustes capables de traiter les subtilités du discours multilingue réel.
English
Code-switching is a widespread practice among the world's multilingual majority, yet few benchmarks accurately reflect its complexity in everyday communication. We present PingPong, a benchmark for natural multi-party code-switching dialogues covering five language-combination variations, some of which are trilingual. Our dataset consists of human-authored conversations among 2 to 4 participants covering authentic, multi-threaded structures where replies frequently reference much earlier points in the dialogue. We demonstrate that our data is significantly more natural and structurally diverse than machine-generated alternatives, offering greater variation in message length, speaker dominance, and reply distance. Based on these dialogues, we define three downstream tasks: Question Answering, Dialogue Summarization, and Topic Classification. Evaluations of several state-of-the-art language models on PingPong reveal that performance remains limited on code-switched inputs, underscoring the urgent need for more robust NLP systems capable of addressing the intricacies of real-world multilingual discourse.
PDF21January 28, 2026