ChatPaper.aiChatPaper

Nem Todas as Línguas São Criadas Iguais em LLMs: Melhorando a Capacidade Multilíngue por meio de Prompting de Pensamento Translinguístico

Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting

May 11, 2023
Autores: Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) demonstram uma capacidade multilíngue impressionante, mas seu desempenho varia substancialmente entre diferentes idiomas. Neste trabalho, introduzimos um método simples, porém eficaz, chamado de prompting de pensamento cruzado entre línguas (XLT), para melhorar sistematicamente a capacidade multilíngue dos LLMs. Especificamente, o XLT é um prompt de modelo genérico que estimula habilidades de raciocínio cruzado entre línguas e lógico para aprimorar o desempenho em tarefas em diversos idiomas. Realizamos avaliações abrangentes em 7 benchmarks típicos relacionados a tarefas de raciocínio, compreensão e geração, cobrindo tanto idiomas de alta quanto de baixa disponibilidade de recursos. Os resultados experimentais mostram que o XLT não apenas melhora significativamente o desempenho em várias tarefas multilíngues, mas também reduz consideravelmente a lacuna entre o desempenho médio e o melhor desempenho de cada tarefa em diferentes idiomas. Notavelmente, o XLT traz uma melhoria média de mais de 10 pontos em tarefas de raciocínio aritmético e de resposta a perguntas de domínio aberto.
English
Large language models (LLMs) demonstrate impressive multilingual capability, but their performance varies substantially across different languages. In this work, we introduce a simple yet effective method, called cross-lingual-thought prompting (XLT), to systematically improve the multilingual capability of LLMs. Specifically, XLT is a generic template prompt that stimulates cross-lingual and logical reasoning skills to enhance task performance across languages. We conduct comprehensive evaluations on 7 typical benchmarks related to reasoning, understanding, and generation tasks, covering both high-resource and low-resource languages. Experimental results show that XLT not only remarkably enhances the performance of various multilingual tasks but also significantly reduces the gap between the average performance and the best performance of each task in different languages. Notably, XLT brings over 10 points of average improvement in arithmetic reasoning and open-domain question-answering tasks.
PDF10December 15, 2024