Не все языки равны в языковых моделях: улучшение многоязычных возможностей с помощью кросс-лингвального подсказывания мыслей
Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting
May 11, 2023
Авторы: Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют впечатляющие мультиязычные способности, однако их производительность существенно варьируется в зависимости от языка. В данной работе мы представляем простой, но эффективный метод, названный кросс-лингвальным подсказочным мышлением (XLT), для систематического улучшения мультиязычных возможностей LLM. В частности, XLT представляет собой универсальный шаблон подсказки, который стимулирует кросс-лингвальные и логические навыки рассуждения для повышения производительности задач на разных языках. Мы проводим всесторонние оценки на 7 типичных тестовых наборах, связанных с задачами рассуждения, понимания и генерации, охватывающих как языки с высоким, так и с низким уровнем ресурсов. Экспериментальные результаты показывают, что XLT не только значительно улучшает производительность в различных мультиязычных задачах, но и существенно сокращает разрыв между средней производительностью и наилучшей производительностью для каждой задачи на разных языках. Примечательно, что XLT обеспечивает среднее улучшение более чем на 10 баллов в задачах арифметического рассуждения и открытого вопросно-ответного взаимодействия.
English
Large language models (LLMs) demonstrate impressive multilingual capability,
but their performance varies substantially across different languages. In this
work, we introduce a simple yet effective method, called cross-lingual-thought
prompting (XLT), to systematically improve the multilingual capability of LLMs.
Specifically, XLT is a generic template prompt that stimulates cross-lingual
and logical reasoning skills to enhance task performance across languages. We
conduct comprehensive evaluations on 7 typical benchmarks related to reasoning,
understanding, and generation tasks, covering both high-resource and
low-resource languages. Experimental results show that XLT not only remarkably
enhances the performance of various multilingual tasks but also significantly
reduces the gap between the average performance and the best performance of
each task in different languages. Notably, XLT brings over 10 points of average
improvement in arithmetic reasoning and open-domain question-answering tasks.