CS-Sum: 코드 전환 대화 요약을 위한 벤치마크 및 대형 언어 모델의 한계
CS-Sum: A Benchmark for Code-Switching Dialogue Summarization and the Limits of Large Language Models
May 19, 2025
저자: Sathya Krishnan Suresh, Tanmay Surana, Lim Zhi Hao, Eng Siong Chng
cs.AI
초록
코드 스위칭(CS)은 대형 언어 모델(LLMs)에게 상당한 도전 과제로 작용하지만, LLMs에서의 이해 가능성은 아직 충분히 탐구되지 않았다. 본 연구에서는 CS 대화를 영어 요약으로 변환함으로써 LLMs의 CS 이해 능력을 평가하기 위해 CS-Sum을 소개한다. CS-Sum은 만다린-영어(EN-ZH), 타밀어-영어(EN-TA), 말레이어-영어(EN-MS)에 걸친 CS 대화 요약을 위한 최초의 벤치마크로, 각 언어 쌍당 900-1300개의 인간 주석이 달린 대화를 포함한다. 오픈 소스 및 클로즈드 소스 모델을 포함한 10개의 LLMs를 평가하며, 퓨샷, 번역-요약, 미세 조정(합성 데이터에 대한 LoRA, QLoRA) 접근법을 통해 성능을 분석한다. 연구 결과, 자동화된 지표에서의 점수는 높지만, LLMs가 대화의 전체 의미를 바꾸는 미묘한 실수를 저지르는 것으로 나타났다. 이를 위해, LLMs가 CS 입력을 처리할 때 발생하는 3가지 가장 일반적인 오류 유형을 소개한다. 오류율은 CS 쌍과 LLMs에 따라 다양하며, 일부 LLMs는 특정 언어 쌍에서 더 빈번한 오류를 보여, 코드 스위칭 데이터에 대한 특화된 훈련의 필요성을 강조한다.
English
Code-switching (CS) poses a significant challenge for Large Language Models
(LLMs), yet its comprehensibility remains underexplored in LLMs. We introduce
CS-Sum, to evaluate the comprehensibility of CS by the LLMs through CS dialogue
to English summarization. CS-Sum is the first benchmark for CS dialogue
summarization across Mandarin-English (EN-ZH), Tamil-English (EN-TA), and
Malay-English (EN-MS), with 900-1300 human-annotated dialogues per language
pair. Evaluating ten LLMs, including open and closed-source models, we analyze
performance across few-shot, translate-summarize, and fine-tuning (LoRA, QLoRA
on synthetic data) approaches. Our findings show that though the scores on
automated metrics are high, LLMs make subtle mistakes that alter the complete
meaning of the dialogue. To this end, we introduce 3 most common type of errors
that LLMs make when handling CS input. Error rates vary across CS pairs and
LLMs, with some LLMs showing more frequent errors on certain language pairs,
underscoring the need for specialized training on code-switched data.Summary
AI-Generated Summary