Valutazione automatica cross-linguistica per la valutazione di modelli di lingua multilingue.

Abstract

Valutare il testo generato dalle macchine rimane una sfida significativa nell'ambito dell'elaborazione del linguaggio naturale, specialmente per le lingue non inglesi. Le metodologie attuali, incluse le metriche automatizzate, le valutazioni umane e le valutazioni basate su LLM, si concentrano principalmente sull'inglese, evidenziando una significativa lacuna nei framework di valutazione multilingue. Presentiamo il Cross Lingual Auto Evaluation (CIA) Suite, un framework estensibile che include LLM valutativi (Hercule) e un nuovo set di test (Recon) appositamente progettato per la valutazione multilingue. Il nostro set di test include 500 istruzioni annotate manualmente che coprono varie capacità di compiti insieme a punteggi di giudizio umano in sei lingue. Ciò consentirebbe il confronto di LLM multilingue a uso generale e agevolerebbe la meta-valutazione dei LLM valutativi. Il modello proposto, Hercule, è un modello di valutazione cross-lingua che affronta la scarsità di risposte di riferimento nella lingua di destinazione imparando ad assegnare punteggi alle risposte basandosi su risposte di riferimento facilmente disponibili in inglese. I nostri esperimenti dimostrano che Hercule si allinea più strettamente con i giudizi umani rispetto ai modelli proprietari, dimostrando l'efficacia di tale valutazione cross-lingua in scenari a risorse limitate. Inoltre, è efficace anche nella valutazione zero-shot su lingue non viste in precedenza. Questo studio rappresenta la prima esaminazione completa della valutazione cross-lingua utilizzando LLM, presentando un approccio scalabile ed efficace per la valutazione multilingue. Tutto il codice, i dataset e i modelli saranno resi pubblicamente disponibili per consentire ulteriori ricerche in questo importante ambito.

English

Evaluating machine-generated text remains a significant challenge in NLP, especially for non-English languages. Current methodologies, including automated metrics, human assessments, and LLM-based evaluations, predominantly focus on English, revealing a significant gap in multilingual evaluation frameworks. We introduce the Cross Lingual Auto Evaluation (CIA) Suite, an extensible framework that includes evaluator LLMs (Hercule) and a novel test set (Recon) specifically designed for multilingual evaluation. Our test set features 500 human-annotated instructions spanning various task capabilities along with human judgment scores across six languages. This would enable benchmarking of general-purpose multilingual LLMs and facilitate meta-evaluation of Evaluator LLMs. The proposed model, Hercule, is a cross-lingual evaluation model that addresses the scarcity of reference answers in the target language by learning to assign scores to responses based on easily available reference answers in English. Our experiments demonstrate that Hercule aligns more closely with human judgments compared to proprietary models, demonstrating the effectiveness of such cross-lingual evaluation in low resource scenarios. Further, it is also effective in zero-shot evaluation on unseen languages. This study is the first comprehensive examination of cross-lingual evaluation using LLMs, presenting a scalable and effective approach for multilingual assessment. All code, datasets, and models will be publicly available to enable further research in this important area.

Valutazione automatica cross-linguistica per la valutazione di modelli di lingua multilingue.

Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs

Abstract

Summary

Support

Support