CS-Sum: Ein Benchmark für die Zusammenfassung von Code-Switching-Dialogen und die Grenzen großer Sprachmodelle

papers.abstract

Code-Switching (CS) stellt eine erhebliche Herausforderung für Large Language Models (LLMs) dar, doch seine Verständlichkeit bleibt in LLMs weitgehend unerforscht. Wir stellen CS-Sum vor, um die Verständlichkeit von CS durch LLMs anhand der Zusammenfassung von CS-Dialogen ins Englische zu bewerten. CS-Sum ist der erste Benchmark für die Zusammenfassung von CS-Dialogen in den Sprachpaaren Mandarin-Englisch (EN-ZH), Tamil-Englisch (EN-TA) und Malaiisch-Englisch (EN-MS), mit jeweils 900–1300 manuell annotierten Dialogen pro Sprachpaar. Bei der Bewertung von zehn LLMs, einschließlich Open- und Closed-Source-Modellen, analysieren wir die Leistung in den Ansätzen Few-Shot, Translate-Summarize und Fine-Tuning (LoRA, QLoRA auf synthetischen Daten). Unsere Ergebnisse zeigen, dass trotz hoher Werte bei automatisierten Metriken, LLMs subtile Fehler machen, die die vollständige Bedeutung des Dialogs verändern. Zu diesem Zweck führen wir die drei häufigsten Fehlertypen ein, die LLMs bei der Verarbeitung von CS-Eingaben machen. Die Fehlerraten variieren je nach CS-Paar und LLM, wobei einige LLMs bei bestimmten Sprachpaaren häufiger Fehler aufweisen, was die Notwendigkeit einer spezialisierten Schulung auf Code-Switching-Daten unterstreicht.

English

Code-switching (CS) poses a significant challenge for Large Language Models (LLMs), yet its comprehensibility remains underexplored in LLMs. We introduce CS-Sum, to evaluate the comprehensibility of CS by the LLMs through CS dialogue to English summarization. CS-Sum is the first benchmark for CS dialogue summarization across Mandarin-English (EN-ZH), Tamil-English (EN-TA), and Malay-English (EN-MS), with 900-1300 human-annotated dialogues per language pair. Evaluating ten LLMs, including open and closed-source models, we analyze performance across few-shot, translate-summarize, and fine-tuning (LoRA, QLoRA on synthetic data) approaches. Our findings show that though the scores on automated metrics are high, LLMs make subtle mistakes that alter the complete meaning of the dialogue. To this end, we introduce 3 most common type of errors that LLMs make when handling CS input. Error rates vary across CS pairs and LLMs, with some LLMs showing more frequent errors on certain language pairs, underscoring the need for specialized training on code-switched data.

CS-Sum: Ein Benchmark für die Zusammenfassung von Code-Switching-Dialogen und die Grenzen großer Sprachmodelle

CS-Sum: A Benchmark for Code-Switching Dialogue Summarization and the Limits of Large Language Models

papers.abstract

Support