Valutazione automatica cross-linguistica per la valutazione di modelli di lingua multilingue.
Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs
October 17, 2024
Autori: Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Dilip Venkatesh, Raj Dabre, Anoop Kunchukuttan, Mitesh M. Khapra
cs.AI
Abstract
Valutare il testo generato dalle macchine rimane una sfida significativa nell'ambito dell'elaborazione del linguaggio naturale, specialmente per le lingue non inglesi. Le metodologie attuali, incluse le metriche automatizzate, le valutazioni umane e le valutazioni basate su LLM, si concentrano principalmente sull'inglese, evidenziando una significativa lacuna nei framework di valutazione multilingue. Presentiamo il Cross Lingual Auto Evaluation (CIA) Suite, un framework estensibile che include LLM valutativi (Hercule) e un nuovo set di test (Recon) appositamente progettato per la valutazione multilingue. Il nostro set di test include 500 istruzioni annotate manualmente che coprono varie capacità di compiti insieme a punteggi di giudizio umano in sei lingue. Ciò consentirebbe il confronto di LLM multilingue a uso generale e agevolerebbe la meta-valutazione dei LLM valutativi. Il modello proposto, Hercule, è un modello di valutazione cross-lingua che affronta la scarsità di risposte di riferimento nella lingua di destinazione imparando ad assegnare punteggi alle risposte basandosi su risposte di riferimento facilmente disponibili in inglese. I nostri esperimenti dimostrano che Hercule si allinea più strettamente con i giudizi umani rispetto ai modelli proprietari, dimostrando l'efficacia di tale valutazione cross-lingua in scenari a risorse limitate. Inoltre, è efficace anche nella valutazione zero-shot su lingue non viste in precedenza. Questo studio rappresenta la prima esaminazione completa della valutazione cross-lingua utilizzando LLM, presentando un approccio scalabile ed efficace per la valutazione multilingue. Tutto il codice, i dataset e i modelli saranno resi pubblicamente disponibili per consentire ulteriori ricerche in questo importante ambito.
English
Evaluating machine-generated text remains a significant challenge in NLP,
especially for non-English languages. Current methodologies, including
automated metrics, human assessments, and LLM-based evaluations, predominantly
focus on English, revealing a significant gap in multilingual evaluation
frameworks. We introduce the Cross Lingual Auto Evaluation (CIA) Suite, an
extensible framework that includes evaluator LLMs (Hercule) and a novel test
set (Recon) specifically designed for multilingual evaluation. Our test set
features 500 human-annotated instructions spanning various task capabilities
along with human judgment scores across six languages. This would enable
benchmarking of general-purpose multilingual LLMs and facilitate
meta-evaluation of Evaluator LLMs. The proposed model, Hercule, is a
cross-lingual evaluation model that addresses the scarcity of reference answers
in the target language by learning to assign scores to responses based on
easily available reference answers in English. Our experiments demonstrate that
Hercule aligns more closely with human judgments compared to proprietary
models, demonstrating the effectiveness of such cross-lingual evaluation in low
resource scenarios. Further, it is also effective in zero-shot evaluation on
unseen languages. This study is the first comprehensive examination of
cross-lingual evaluation using LLMs, presenting a scalable and effective
approach for multilingual assessment. All code, datasets, and models will be
publicly available to enable further research in this important area.Summary
AI-Generated Summary