ChatPaper.aiChatPaper

PingPong: Естественный Бенчмарк для Многоходовых Диалогов с Кодовым Переключением

PingPong: A Natural Benchmark for Multi-Turn Code-Switching Dialogues

January 24, 2026
Авторы: Mohammad Rifqi Farhansyah, Hanif Muhammad Zhafran, Farid Adilazuarda, Shamsuddeen Hassan Muhammad, Maryam Ibrahim Mukhtar, Nedjma Ousidhoum, Genta Indra Winata, Ayu Purwarianti, Alham Fikri Aji
cs.AI

Аннотация

Кодовое переключение является широко распространенной практикой среди многоязычного большинства мирового населения, однако существующие бенчмарки недостаточно точно отражают его сложность в повседневной коммуникации. Мы представляем PingPong — бенчмарк для естественных многопользовательских диалогов с кодовым переключением, охватывающий пять вариантов языковых комбинаций, включая некоторые трехъязычные. Наш набор данных состоит из созданных человеком бесед между 2–4 участниками, демонстрирующих аутентичную многопоточную структуру, где реплики часто отсылают к более ранним точкам диалога. Мы показываем, что наши данные значительно более естественны и структурно разнообразны по сравнению с машинно-сгенерированными аналогами, предлагая больший разброс в длине сообщений, доминировании говорящих и дистанции между репликами. На основе этих диалогов мы определяем три практические задачи: вопросно-ответные системы, суммаризация диалогов и тематическая классификация. Оценка нескольких современных языковых моделей на PingPong показывает, что их производительность на смешанных языковых входных данных остается ограниченной, что подчеркивает настоятельную необходимость в создании более устойчивых NLP-систем, способных учитывать сложности реального многоязычного дискурса.
English
Code-switching is a widespread practice among the world's multilingual majority, yet few benchmarks accurately reflect its complexity in everyday communication. We present PingPong, a benchmark for natural multi-party code-switching dialogues covering five language-combination variations, some of which are trilingual. Our dataset consists of human-authored conversations among 2 to 4 participants covering authentic, multi-threaded structures where replies frequently reference much earlier points in the dialogue. We demonstrate that our data is significantly more natural and structurally diverse than machine-generated alternatives, offering greater variation in message length, speaker dominance, and reply distance. Based on these dialogues, we define three downstream tasks: Question Answering, Dialogue Summarization, and Topic Classification. Evaluations of several state-of-the-art language models on PingPong reveal that performance remains limited on code-switched inputs, underscoring the urgent need for more robust NLP systems capable of addressing the intricacies of real-world multilingual discourse.
PDF21January 28, 2026