Avaliação Automática Cruzada para Avaliar Modelos de Linguagem Multilíngue
Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs
October 17, 2024
Autores: Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Dilip Venkatesh, Raj Dabre, Anoop Kunchukuttan, Mitesh M. Khapra
cs.AI
Resumo
A avaliação de texto gerado por máquina continua a ser um desafio significativo em PNL, especialmente para idiomas não ingleses. As metodologias atuais, incluindo métricas automatizadas, avaliações humanas e avaliações baseadas em LLMs, focam predominantemente no inglês, revelando uma lacuna significativa em frameworks de avaliação multilíngue. Apresentamos o Conjunto de Avaliação Automática Translingue (CIA), um framework extensível que inclui LLMs avaliadores (Hercule) e um novo conjunto de testes (Recon) especificamente projetado para avaliação multilíngue. Nosso conjunto de testes apresenta 500 instruções humanas anotadas abrangendo várias capacidades de tarefas, juntamente com pontuações de julgamento humano em seis idiomas. Isso permitiria a comparação de LLMs multilíngues de propósito geral e facilitaria a meta-avaliação de LLMs Avaliadores. O modelo proposto, Hercule, é um modelo de avaliação translingue que aborda a escassez de respostas de referência no idioma-alvo ao aprender a atribuir pontuações às respostas com base em respostas de referência facilmente disponíveis em inglês. Nossos experimentos demonstram que Hercule se alinha mais estreitamente com os julgamentos humanos em comparação com modelos proprietários, demonstrando a eficácia de tal avaliação translingue em cenários de recursos limitados. Além disso, também é eficaz na avaliação de zero-shot em idiomas não vistos anteriormente. Este estudo é a primeira análise abrangente da avaliação translingue usando LLMs, apresentando uma abordagem escalável e eficaz para avaliação multilíngue. Todo o código, conjuntos de dados e modelos estarão disponíveis publicamente para possibilitar pesquisas adicionais nesta área importante.
English
Evaluating machine-generated text remains a significant challenge in NLP,
especially for non-English languages. Current methodologies, including
automated metrics, human assessments, and LLM-based evaluations, predominantly
focus on English, revealing a significant gap in multilingual evaluation
frameworks. We introduce the Cross Lingual Auto Evaluation (CIA) Suite, an
extensible framework that includes evaluator LLMs (Hercule) and a novel test
set (Recon) specifically designed for multilingual evaluation. Our test set
features 500 human-annotated instructions spanning various task capabilities
along with human judgment scores across six languages. This would enable
benchmarking of general-purpose multilingual LLMs and facilitate
meta-evaluation of Evaluator LLMs. The proposed model, Hercule, is a
cross-lingual evaluation model that addresses the scarcity of reference answers
in the target language by learning to assign scores to responses based on
easily available reference answers in English. Our experiments demonstrate that
Hercule aligns more closely with human judgments compared to proprietary
models, demonstrating the effectiveness of such cross-lingual evaluation in low
resource scenarios. Further, it is also effective in zero-shot evaluation on
unseen languages. This study is the first comprehensive examination of
cross-lingual evaluation using LLMs, presenting a scalable and effective
approach for multilingual assessment. All code, datasets, and models will be
publicly available to enable further research in this important area.Summary
AI-Generated Summary