Autoevaluación Cruzada para Evaluar LLMs Multilingües
Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs
October 17, 2024
Autores: Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Dilip Venkatesh, Raj Dabre, Anoop Kunchukuttan, Mitesh M. Khapra
cs.AI
Resumen
Evaluar el texto generado por máquinas sigue siendo un desafío significativo en el Procesamiento del Lenguaje Natural (PLN), especialmente para idiomas no ingleses. Las metodologías actuales, que incluyen métricas automatizadas, evaluaciones humanas y evaluaciones basadas en LLM, se centran predominantemente en inglés, revelando una brecha significativa en los marcos de evaluación multilingüe. Presentamos la Suite de Autoevaluación Cruz Lingüística (CIA), un marco extensible que incluye LLM evaluadores (Hércules) y un nuevo conjunto de pruebas (Recon) diseñado específicamente para evaluación multilingüe. Nuestro conjunto de pruebas incluye 500 instrucciones anotadas por humanos que abarcan diversas capacidades de tarea junto con puntajes de juicio humano en seis idiomas. Esto permitiría la comparación de LLM multilingües de propósito general y facilitaría la metaevaluación de LLM Evaluadores. El modelo propuesto, Hércules, es un modelo de evaluación cruz lingüística que aborda la escasez de respuestas de referencia en el idioma objetivo al aprender a asignar puntajes a respuestas basadas en respuestas de referencia fácilmente disponibles en inglés. Nuestros experimentos demuestran que Hércules se alinea más estrechamente con los juicios humanos en comparación con modelos propietarios, lo que demuestra la efectividad de dicha evaluación cruz lingüística en escenarios de recursos limitados. Además, también es efectivo en la evaluación de cero disparo en idiomas no vistos previamente. Este estudio es el primer examen exhaustivo de la evaluación cruz lingüística utilizando LLM, presentando un enfoque escalable y efectivo para la evaluación multilingüe. Todo el código, conjuntos de datos y modelos estarán disponibles públicamente para permitir una mayor investigación en esta área importante.
English
Evaluating machine-generated text remains a significant challenge in NLP,
especially for non-English languages. Current methodologies, including
automated metrics, human assessments, and LLM-based evaluations, predominantly
focus on English, revealing a significant gap in multilingual evaluation
frameworks. We introduce the Cross Lingual Auto Evaluation (CIA) Suite, an
extensible framework that includes evaluator LLMs (Hercule) and a novel test
set (Recon) specifically designed for multilingual evaluation. Our test set
features 500 human-annotated instructions spanning various task capabilities
along with human judgment scores across six languages. This would enable
benchmarking of general-purpose multilingual LLMs and facilitate
meta-evaluation of Evaluator LLMs. The proposed model, Hercule, is a
cross-lingual evaluation model that addresses the scarcity of reference answers
in the target language by learning to assign scores to responses based on
easily available reference answers in English. Our experiments demonstrate that
Hercule aligns more closely with human judgments compared to proprietary
models, demonstrating the effectiveness of such cross-lingual evaluation in low
resource scenarios. Further, it is also effective in zero-shot evaluation on
unseen languages. This study is the first comprehensive examination of
cross-lingual evaluation using LLMs, presenting a scalable and effective
approach for multilingual assessment. All code, datasets, and models will be
publicly available to enable further research in this important area.Summary
AI-Generated Summary