CS-Sum : Un benchmark pour la synthèse de dialogues en alternance codique et les limites des grands modèles de langage

papers.abstract

L'alternance codique (CS) représente un défi majeur pour les modèles de langage de grande taille (LLMs), mais sa compréhensibilité reste peu explorée dans ces modèles. Nous présentons CS-Sum, un outil pour évaluer la compréhensibilité de l'alternance codique par les LLMs à travers la synthèse de dialogues en CS vers l'anglais. CS-Sum est le premier benchmark pour la synthèse de dialogues en CS couvrant les paires mandarin-anglais (EN-ZH), tamoul-anglais (EN-TA) et malais-anglais (EN-MS), avec 900 à 1300 dialogues annotés manuellement par paire de langues. En évaluant dix LLMs, incluant des modèles open source et propriétaires, nous analysons les performances selon les approches few-shot, traduction-synthèse et fine-tuning (LoRA, QLoRA sur des données synthétiques). Nos résultats montrent que, bien que les scores sur les métriques automatisées soient élevés, les LLMs commettent des erreurs subtiles qui altèrent complètement le sens du dialogue. À cet égard, nous identifions les trois types d'erreurs les plus fréquents que les LLMs commettent lors du traitement des entrées en CS. Les taux d'erreur varient selon les paires de CS et les LLMs, certains modèles montrant des erreurs plus fréquentes sur certaines paires de langues, soulignant la nécessité d'un entraînement spécialisé sur des données en alternance codique.

English

Code-switching (CS) poses a significant challenge for Large Language Models (LLMs), yet its comprehensibility remains underexplored in LLMs. We introduce CS-Sum, to evaluate the comprehensibility of CS by the LLMs through CS dialogue to English summarization. CS-Sum is the first benchmark for CS dialogue summarization across Mandarin-English (EN-ZH), Tamil-English (EN-TA), and Malay-English (EN-MS), with 900-1300 human-annotated dialogues per language pair. Evaluating ten LLMs, including open and closed-source models, we analyze performance across few-shot, translate-summarize, and fine-tuning (LoRA, QLoRA on synthetic data) approaches. Our findings show that though the scores on automated metrics are high, LLMs make subtle mistakes that alter the complete meaning of the dialogue. To this end, we introduce 3 most common type of errors that LLMs make when handling CS input. Error rates vary across CS pairs and LLMs, with some LLMs showing more frequent errors on certain language pairs, underscoring the need for specialized training on code-switched data.

CS-Sum : Un benchmark pour la synthèse de dialogues en alternance codique et les limites des grands modèles de langage

CS-Sum: A Benchmark for Code-Switching Dialogue Summarization and the Limits of Large Language Models

papers.abstract

Support