CS-Sum: Бенчмарк для суммаризации диалогов с переключением кода и ограничения крупных языковых моделей
CS-Sum: A Benchmark for Code-Switching Dialogue Summarization and the Limits of Large Language Models
May 19, 2025
Авторы: Sathya Krishnan Suresh, Tanmay Surana, Lim Zhi Hao, Eng Siong Chng
cs.AI
Аннотация
Кодовое переключение (CS) представляет собой значительную проблему для крупных языковых моделей (LLMs), однако его понятность остается недостаточно изученной в контексте LLMs. Мы представляем CS-Sum, инструмент для оценки понятности CS в LLMs через суммирование диалогов с CS на английский язык. CS-Sum является первым эталонным тестом для суммирования диалогов с CS для пар языков мандарин-английский (EN-ZH), тамильский-английский (EN-TA) и малайский-английский (EN-MS), содержащим 900–1300 аннотированных человеком диалогов для каждой языковой пары. Оценивая десять LLMs, включая модели с открытым и закрытым исходным кодом, мы анализируем их производительность в условиях few-shot, подхода «перевод-суммирование» и тонкой настройки (LoRA, QLoRA на синтетических данных). Наши результаты показывают, что, несмотря на высокие оценки по автоматизированным метрикам, LLMs допускают тонкие ошибки, которые искажают полный смысл диалога. В связи с этим мы выделяем три наиболее распространенных типа ошибок, которые LLMs допускают при обработке ввода с CS. Частота ошибок варьируется в зависимости от языковых пар и LLMs, причем некоторые модели демонстрируют более частые ошибки на определенных языковых парах, что подчеркивает необходимость специализированного обучения на данных с кодовым переключением.
English
Code-switching (CS) poses a significant challenge for Large Language Models
(LLMs), yet its comprehensibility remains underexplored in LLMs. We introduce
CS-Sum, to evaluate the comprehensibility of CS by the LLMs through CS dialogue
to English summarization. CS-Sum is the first benchmark for CS dialogue
summarization across Mandarin-English (EN-ZH), Tamil-English (EN-TA), and
Malay-English (EN-MS), with 900-1300 human-annotated dialogues per language
pair. Evaluating ten LLMs, including open and closed-source models, we analyze
performance across few-shot, translate-summarize, and fine-tuning (LoRA, QLoRA
on synthetic data) approaches. Our findings show that though the scores on
automated metrics are high, LLMs make subtle mistakes that alter the complete
meaning of the dialogue. To this end, we introduce 3 most common type of errors
that LLMs make when handling CS input. Error rates vary across CS pairs and
LLMs, with some LLMs showing more frequent errors on certain language pairs,
underscoring the need for specialized training on code-switched data.Summary
AI-Generated Summary