CS-Sum: Ein Benchmark für die Zusammenfassung von Code-Switching-Dialogen und die Grenzen großer Sprachmodelle
CS-Sum: A Benchmark for Code-Switching Dialogue Summarization and the Limits of Large Language Models
May 19, 2025
Autoren: Sathya Krishnan Suresh, Tanmay Surana, Lim Zhi Hao, Eng Siong Chng
cs.AI
Zusammenfassung
Code-Switching (CS) stellt eine erhebliche Herausforderung für Large Language Models (LLMs) dar, doch seine Verständlichkeit bleibt in LLMs weitgehend unerforscht. Wir stellen CS-Sum vor, um die Verständlichkeit von CS durch LLMs anhand der Zusammenfassung von CS-Dialogen ins Englische zu bewerten. CS-Sum ist der erste Benchmark für die Zusammenfassung von CS-Dialogen in den Sprachpaaren Mandarin-Englisch (EN-ZH), Tamil-Englisch (EN-TA) und Malaiisch-Englisch (EN-MS), mit jeweils 900–1300 manuell annotierten Dialogen pro Sprachpaar. Bei der Bewertung von zehn LLMs, einschließlich Open- und Closed-Source-Modellen, analysieren wir die Leistung in den Ansätzen Few-Shot, Translate-Summarize und Fine-Tuning (LoRA, QLoRA auf synthetischen Daten). Unsere Ergebnisse zeigen, dass trotz hoher Werte bei automatisierten Metriken, LLMs subtile Fehler machen, die die vollständige Bedeutung des Dialogs verändern. Zu diesem Zweck führen wir die drei häufigsten Fehlertypen ein, die LLMs bei der Verarbeitung von CS-Eingaben machen. Die Fehlerraten variieren je nach CS-Paar und LLM, wobei einige LLMs bei bestimmten Sprachpaaren häufiger Fehler aufweisen, was die Notwendigkeit einer spezialisierten Schulung auf Code-Switching-Daten unterstreicht.
English
Code-switching (CS) poses a significant challenge for Large Language Models
(LLMs), yet its comprehensibility remains underexplored in LLMs. We introduce
CS-Sum, to evaluate the comprehensibility of CS by the LLMs through CS dialogue
to English summarization. CS-Sum is the first benchmark for CS dialogue
summarization across Mandarin-English (EN-ZH), Tamil-English (EN-TA), and
Malay-English (EN-MS), with 900-1300 human-annotated dialogues per language
pair. Evaluating ten LLMs, including open and closed-source models, we analyze
performance across few-shot, translate-summarize, and fine-tuning (LoRA, QLoRA
on synthetic data) approaches. Our findings show that though the scores on
automated metrics are high, LLMs make subtle mistakes that alter the complete
meaning of the dialogue. To this end, we introduce 3 most common type of errors
that LLMs make when handling CS input. Error rates vary across CS pairs and
LLMs, with some LLMs showing more frequent errors on certain language pairs,
underscoring the need for specialized training on code-switched data.Summary
AI-Generated Summary