ChatPaper.aiChatPaper

Являются ли оценки на основе больших языковых моделей решением для масштабирования многоязычной оценки?

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?

September 14, 2023
Авторы: Rishav Hada, Varun Gumma, Adrian de Wynter, Harshita Diddee, Mohamed Ahmed, Monojit Choudhury, Kalika Bali, Sunayana Sitaram
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в задачах обработки естественного языка (NLP), таких как ответы на вопросы, суммаризация и классификация. Использование LLM в качестве оценщиков, способных ранжировать или оценивать выходные данные других моделей (обычно также LLM), становится всё более популярным из-за ограничений современных методов оценки, включая отсутствие подходящих бенчмарков, метрик, затрат и доступа к аннотаторам-людям. Хотя LLM способны обрабатывать около 100 языков, большинство языков за пределами топ-20 не имеют систематической оценки по различным задачам, метрикам и бенчмаркам. Это создаёт острую необходимость масштабирования многоязычной оценки для точного понимания производительности LLM на различных языках. Оценщики на основе LLM кажутся идеальным решением этой проблемы, так как они не требуют аннотаторов-людей, созданных человеком эталонов или бенчмарков и теоретически могут использоваться для оценки любого языка, поддерживаемого LLM. В данной статье мы исследуем, могут ли оценщики на основе LLM помочь масштабировать многоязычную оценку. В частности, мы калибруем оценку на основе LLM на основе 20 тысяч человеческих суждений по пяти метрикам в трёх задачах генерации текста на восьми языках. Наши результаты показывают, что оценщики на основе LLM могут проявлять склонность к завышению оценок, и их следует использовать с осторожностью, всегда калибруя на наборе данных с суждениями носителей языка, особенно в случае малоресурсных языков и языков с нелатинской письменностью.
English
Large Language Models (LLMs) have demonstrated impressive performance on Natural Language Processing (NLP) tasks, such as Question Answering, Summarization, and Classification. The use of LLMs as evaluators, that can rank or score the output of other models (usually LLMs) has become increasingly popular, due to the limitations of current evaluation techniques including the lack of appropriate benchmarks, metrics, cost, and access to human annotators. While LLMs are capable of handling approximately 100 languages, the majority of languages beyond the top 20 lack systematic evaluation across various tasks, metrics, and benchmarks. This creates an urgent need to scale up multilingual evaluation to ensure a precise understanding of LLM performance across diverse languages. LLM-based evaluators seem like the perfect solution to this problem, as they do not require human annotators, human-created references, or benchmarks and can theoretically be used to evaluate any language covered by the LLM. In this paper, we investigate whether LLM-based evaluators can help scale up multilingual evaluation. Specifically, we calibrate LLM-based evaluation against 20k human judgments of five metrics across three text-generation tasks in eight languages. Our findings indicate that LLM-based evaluators may exhibit bias towards higher scores and should be used with caution and should always be calibrated with a dataset of native speaker judgments, particularly in low-resource and non-Latin script languages.
PDF52December 15, 2024