I modelli linguistici di grandi dimensioni basati su valutatori sono la soluzione per scalare le valutazioni multilingue?
Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?
September 14, 2023
Autori: Rishav Hada, Varun Gumma, Adrian de Wynter, Harshita Diddee, Mohamed Ahmed, Monojit Choudhury, Kalika Bali, Sunayana Sitaram
cs.AI
Abstract
I Large Language Model (LLM) hanno dimostrato prestazioni impressionanti in compiti di Natural Language Processing (NLP), come Question Answering, Summarization e Classification. L'uso degli LLM come valutatori, in grado di classificare o assegnare un punaggio all'output di altri modelli (solitamente LLM), è diventato sempre più popolare a causa delle limitazioni delle attuali tecniche di valutazione, tra cui la mancanza di benchmark appropriati, metriche, costi e accesso a annotatori umani. Sebbene gli LLM siano in grado di gestire circa 100 lingue, la maggior parte delle lingue oltre le prime 20 manca di una valutazione sistematica su vari compiti, metriche e benchmark. Ciò crea un'urgente necessità di ampliare la valutazione multilingue per garantire una comprensione precisa delle prestazioni degli LLM in diverse lingue. I valutatori basati su LLM sembrano la soluzione perfetta a questo problema, poiché non richiedono annotatori umani, riferimenti creati dall'uomo o benchmark e possono teoricamente essere utilizzati per valutare qualsiasi lingua coperta dall'LLM. In questo articolo, indaghiamo se i valutatori basati su LLM possano aiutare a scalare la valutazione multilingue. Nello specifico, calibriamo la valutazione basata su LLM rispetto a 20k giudizi umani su cinque metriche in tre compiti di generazione di testo in otto lingue. I nostri risultati indicano che i valutatori basati su LLM possono mostrare un bias verso punteggi più alti e dovrebbero essere utilizzati con cautela, sempre calibrati con un dataset di giudizi di parlanti nativi, specialmente nelle lingue a bassa risorsa e con scritture non latine.
English
Large Language Models (LLMs) have demonstrated impressive performance on
Natural Language Processing (NLP) tasks, such as Question Answering,
Summarization, and Classification. The use of LLMs as evaluators, that can rank
or score the output of other models (usually LLMs) has become increasingly
popular, due to the limitations of current evaluation techniques including the
lack of appropriate benchmarks, metrics, cost, and access to human annotators.
While LLMs are capable of handling approximately 100 languages, the majority of
languages beyond the top 20 lack systematic evaluation across various tasks,
metrics, and benchmarks. This creates an urgent need to scale up multilingual
evaluation to ensure a precise understanding of LLM performance across diverse
languages. LLM-based evaluators seem like the perfect solution to this problem,
as they do not require human annotators, human-created references, or
benchmarks and can theoretically be used to evaluate any language covered by
the LLM. In this paper, we investigate whether LLM-based evaluators can help
scale up multilingual evaluation. Specifically, we calibrate LLM-based
evaluation against 20k human judgments of five metrics across three
text-generation tasks in eight languages. Our findings indicate that LLM-based
evaluators may exhibit bias towards higher scores and should be used with
caution and should always be calibrated with a dataset of native speaker
judgments, particularly in low-resource and non-Latin script languages.