CS-Sum : Un benchmark pour la synthèse de dialogues en alternance codique et les limites des grands modèles de langage
CS-Sum: A Benchmark for Code-Switching Dialogue Summarization and the Limits of Large Language Models
May 19, 2025
Auteurs: Sathya Krishnan Suresh, Tanmay Surana, Lim Zhi Hao, Eng Siong Chng
cs.AI
Résumé
L'alternance codique (CS) représente un défi majeur pour les modèles de langage de grande taille (LLMs), mais sa compréhensibilité reste peu explorée dans ces modèles. Nous présentons CS-Sum, un outil pour évaluer la compréhensibilité de l'alternance codique par les LLMs à travers la synthèse de dialogues en CS vers l'anglais. CS-Sum est le premier benchmark pour la synthèse de dialogues en CS couvrant les paires mandarin-anglais (EN-ZH), tamoul-anglais (EN-TA) et malais-anglais (EN-MS), avec 900 à 1300 dialogues annotés manuellement par paire de langues. En évaluant dix LLMs, incluant des modèles open source et propriétaires, nous analysons les performances selon les approches few-shot, traduction-synthèse et fine-tuning (LoRA, QLoRA sur des données synthétiques). Nos résultats montrent que, bien que les scores sur les métriques automatisées soient élevés, les LLMs commettent des erreurs subtiles qui altèrent complètement le sens du dialogue. À cet égard, nous identifions les trois types d'erreurs les plus fréquents que les LLMs commettent lors du traitement des entrées en CS. Les taux d'erreur varient selon les paires de CS et les LLMs, certains modèles montrant des erreurs plus fréquentes sur certaines paires de langues, soulignant la nécessité d'un entraînement spécialisé sur des données en alternance codique.
English
Code-switching (CS) poses a significant challenge for Large Language Models
(LLMs), yet its comprehensibility remains underexplored in LLMs. We introduce
CS-Sum, to evaluate the comprehensibility of CS by the LLMs through CS dialogue
to English summarization. CS-Sum is the first benchmark for CS dialogue
summarization across Mandarin-English (EN-ZH), Tamil-English (EN-TA), and
Malay-English (EN-MS), with 900-1300 human-annotated dialogues per language
pair. Evaluating ten LLMs, including open and closed-source models, we analyze
performance across few-shot, translate-summarize, and fine-tuning (LoRA, QLoRA
on synthetic data) approaches. Our findings show that though the scores on
automated metrics are high, LLMs make subtle mistakes that alter the complete
meaning of the dialogue. To this end, we introduce 3 most common type of errors
that LLMs make when handling CS input. Error rates vary across CS pairs and
LLMs, with some LLMs showing more frequent errors on certain language pairs,
underscoring the need for specialized training on code-switched data.Summary
AI-Generated Summary