PingPong: マルチターンコードスイッチング対話のための自然なベンチマーク
PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues
January 24, 2026
著者: Mohammad Rifqi Farhansyah, Hanif Muhammad Zhafran, Farid Adilazuarda, Shamsuddeen Hassan Muhammad, Maryam Ibrahim Mukhtar, Nedjma Ousidhoum, Genta Indra Winata, Ayu Purwarianti, Alham Fikri Aji
cs.AI
要旨
コードスイッチングは世界の多言語話者マジョリティにおいて広く見られる現象であるが、日常会話におけるその複雑性を正確に反映するベンチマークはほとんど存在しない。本論文では、5つの言語組み合わせバリエーション(一部は三言語)をカバーする、自然なマルチパーティ・コードスイッチング対話のベンチマーク「PingPong」を提案する。我々のデータセットは、2~4名の参加者による人手作成の対話から構成され、返答が対話中の遙か以前の発言を頻繁に参照する、真正でマルチスレッド構造を持つ。本データが、機械生成の代替案と比べてはるかに自然で構造的多様性に富み、メッセージ長、発話者の支配度、返答距離においてより大きなバリエーションを持つことを実証する。これらの対話に基づき、質問応答、対話要約、トピック分類の3つの下流タスクを定義する。PingPongを用いたいくつかの最先端言語モデルの評価により、コードスイッチング入力に対する性能は依然として限定的であることが明らかとなり、実世界の多言語談話の複雑さに対処できるより頑健なNLPシステムの緊急な必要性が浮き彫りとなった。
English
Code-switching is a widespread practice among the world's multilingual majority, yet few benchmarks accurately reflect its complexity in everyday communication. We present PingPong, a benchmark for natural multi-party code-switching dialogues covering five language-combination variations, some of which are trilingual. Our dataset consists of human-authored conversations among 2 to 4 participants covering authentic, multi-threaded structures where replies frequently reference much earlier points in the dialogue. We demonstrate that our data is significantly more natural and structurally diverse than machine-generated alternatives, offering greater variation in message length, speaker dominance, and reply distance. Based on these dialogues, we define three downstream tasks: Question Answering, Dialogue Summarization, and Topic Classification. Evaluations of several state-of-the-art language models on PingPong reveal that performance remains limited on code-switched inputs, underscoring the urgent need for more robust NLP systems capable of addressing the intricacies of real-world multilingual discourse.