Toutes les langues ne sont pas égales dans les LLM : Amélioration des capacités multilingues par l'incitation à la pensée translinguistique
Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting
May 11, 2023
Auteurs: Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei
cs.AI
Résumé
Les grands modèles de langage (LLM) démontrent une capacité multilingue impressionnante, mais leurs performances varient considérablement selon les langues. Dans ce travail, nous introduisons une méthode simple mais efficace, appelée incitation à la pensée translinguale (XLT), pour améliorer systématiquement la capacité multilingue des LLM. Plus précisément, XLT est un modèle d'incitation générique qui stimule les compétences de raisonnement translingual et logique afin d'améliorer les performances des tâches à travers les langues. Nous menons des évaluations approfondies sur 7 benchmarks typiques liés aux tâches de raisonnement, de compréhension et de génération, couvrant à la fois les langues à ressources élevées et celles à ressources limitées. Les résultats expérimentaux montrent que XLT améliore non seulement de manière remarquable les performances de diverses tâches multilingues, mais réduit également de manière significative l'écart entre la performance moyenne et la meilleure performance de chaque tâche dans différentes langues. Notamment, XLT apporte une amélioration moyenne de plus de 10 points dans les tâches de raisonnement arithmétique et de réponse à des questions en domaine ouvert.
English
Large language models (LLMs) demonstrate impressive multilingual capability,
but their performance varies substantially across different languages. In this
work, we introduce a simple yet effective method, called cross-lingual-thought
prompting (XLT), to systematically improve the multilingual capability of LLMs.
Specifically, XLT is a generic template prompt that stimulates cross-lingual
and logical reasoning skills to enhance task performance across languages. We
conduct comprehensive evaluations on 7 typical benchmarks related to reasoning,
understanding, and generation tasks, covering both high-resource and
low-resource languages. Experimental results show that XLT not only remarkably
enhances the performance of various multilingual tasks but also significantly
reduces the gap between the average performance and the best performance of
each task in different languages. Notably, XLT brings over 10 points of average
improvement in arithmetic reasoning and open-domain question-answering tasks.