ChatPaper.aiChatPaper

CS-Sum: Бенчмарк для суммаризации диалогов с переключением кода и ограничения крупных языковых моделей

CS-Sum: A Benchmark for Code-Switching Dialogue Summarization and the Limits of Large Language Models

May 19, 2025
Авторы: Sathya Krishnan Suresh, Tanmay Surana, Lim Zhi Hao, Eng Siong Chng
cs.AI

Аннотация

Кодовое переключение (CS) представляет собой значительную проблему для крупных языковых моделей (LLMs), однако его понятность остается недостаточно изученной в контексте LLMs. Мы представляем CS-Sum, инструмент для оценки понятности CS в LLMs через суммирование диалогов с CS на английский язык. CS-Sum является первым эталонным тестом для суммирования диалогов с CS для пар языков мандарин-английский (EN-ZH), тамильский-английский (EN-TA) и малайский-английский (EN-MS), содержащим 900–1300 аннотированных человеком диалогов для каждой языковой пары. Оценивая десять LLMs, включая модели с открытым и закрытым исходным кодом, мы анализируем их производительность в условиях few-shot, подхода «перевод-суммирование» и тонкой настройки (LoRA, QLoRA на синтетических данных). Наши результаты показывают, что, несмотря на высокие оценки по автоматизированным метрикам, LLMs допускают тонкие ошибки, которые искажают полный смысл диалога. В связи с этим мы выделяем три наиболее распространенных типа ошибок, которые LLMs допускают при обработке ввода с CS. Частота ошибок варьируется в зависимости от языковых пар и LLMs, причем некоторые модели демонстрируют более частые ошибки на определенных языковых парах, что подчеркивает необходимость специализированного обучения на данных с кодовым переключением.
English
Code-switching (CS) poses a significant challenge for Large Language Models (LLMs), yet its comprehensibility remains underexplored in LLMs. We introduce CS-Sum, to evaluate the comprehensibility of CS by the LLMs through CS dialogue to English summarization. CS-Sum is the first benchmark for CS dialogue summarization across Mandarin-English (EN-ZH), Tamil-English (EN-TA), and Malay-English (EN-MS), with 900-1300 human-annotated dialogues per language pair. Evaluating ten LLMs, including open and closed-source models, we analyze performance across few-shot, translate-summarize, and fine-tuning (LoRA, QLoRA on synthetic data) approaches. Our findings show that though the scores on automated metrics are high, LLMs make subtle mistakes that alter the complete meaning of the dialogue. To this end, we introduce 3 most common type of errors that LLMs make when handling CS input. Error rates vary across CS pairs and LLMs, with some LLMs showing more frequent errors on certain language pairs, underscoring the need for specialized training on code-switched data.

Summary

AI-Generated Summary

PDF92May 21, 2025