ChatPaper.aiChatPaper

Nicht alle Sprachen sind in LLMs gleichwertig: Verbesserung der mehrsprachigen Fähigkeiten durch Cross-Lingual-Thought Prompting

Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting

May 11, 2023
Autoren: Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen beeindruckende multilinguale Fähigkeiten, doch ihre Leistung variiert erheblich zwischen verschiedenen Sprachen. In dieser Arbeit stellen wir eine einfache, aber effektive Methode vor, die als Cross-Lingual-Thought Prompting (XLT) bezeichnet wird, um die multilingualen Fähigkeiten von LLMs systematisch zu verbessern. Konkret handelt es sich bei XLT um eine generische Vorlage für Prompts, die cross-linguale und logische Denkfähigkeiten anregt, um die Aufgabenleistung über verschiedene Sprachen hinweg zu steigern. Wir führen umfassende Evaluierungen auf 7 typischen Benchmarks durch, die sich auf Aufgaben des logischen Denkens, des Verstehens und der Generierung beziehen und sowohl hoch- als auch niedrigressourcenreiche Sprachen abdecken. Die experimentellen Ergebnisse zeigen, dass XLT nicht nur die Leistung bei verschiedenen multilingualen Aufgaben deutlich verbessert, sondern auch die Lücke zwischen der durchschnittlichen Leistung und der besten Leistung jeder Aufgabe in verschiedenen Sprachen signifikant verringert. Besonders hervorzuheben ist, dass XLT eine durchschnittliche Verbesserung von über 10 Punkten bei arithmetischem Denken und Open-Domain-Frage-Antwort-Aufgaben erzielt.
English
Large language models (LLMs) demonstrate impressive multilingual capability, but their performance varies substantially across different languages. In this work, we introduce a simple yet effective method, called cross-lingual-thought prompting (XLT), to systematically improve the multilingual capability of LLMs. Specifically, XLT is a generic template prompt that stimulates cross-lingual and logical reasoning skills to enhance task performance across languages. We conduct comprehensive evaluations on 7 typical benchmarks related to reasoning, understanding, and generation tasks, covering both high-resource and low-resource languages. Experimental results show that XLT not only remarkably enhances the performance of various multilingual tasks but also significantly reduces the gap between the average performance and the best performance of each task in different languages. Notably, XLT brings over 10 points of average improvement in arithmetic reasoning and open-domain question-answering tasks.
PDF10December 15, 2024