ChatPaper.aiChatPaper

Насколько часто языковые модели галлюцинируют на разных языках? Оценка галлюцинаций языковых моделей в мультиязычной среде

How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild

February 18, 2025
Авторы: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI

Аннотация

В эпоху дезинформации галлюцинации — склонность крупных языковых моделей (LLM) генерировать недостоверные или несоответствующие фактам ответы — представляют собой основной риск для их глобальной полезности. Несмотря на то, что LLM становятся всё более многоязычными, подавляющее большинство исследований по обнаружению и количественной оценке галлюцинаций в LLM (а) сосредоточено на английском языке и (б) фокусируется на машинном переводе (MT) и суммаризации — задачах, которые встречаются «в реальной жизни» реже, чем открытый поиск информации. В отличие от этого, мы стремимся количественно оценить масштабы галлюцинаций LLM на разных языках в контексте ответов на сложные вопросы, требующие глубоких знаний. Для этого мы обучаем многоязычную модель для обнаружения галлюцинаций и проводим масштабное исследование, охватывающее 30 языков и 6 семейств открытых LLM. Мы начинаем с набора данных для обнаружения галлюцинаций на английском языке и используем машинный перевод для создания (зашумлённых) обучающих данных на других языках. Мы также вручную аннотируем эталонные данные для пяти языков с высоким уровнем ресурсов; затем мы показываем, что для этих языков оценки уровня галлюцинаций схожи между серебряными (сгенерированными LLM) и эталонными тестовыми наборами, что подтверждает возможность использования серебряных данных для оценки уровня галлюцинаций на других языках. Для окончательной оценки уровня галлюцинаций мы создаём набор данных для ответов на сложные вопросы, требующие знаний, на 30 языках, используя запросы, сгенерированные LLM, и статьи из Википедии в качестве эталонов. Мы обнаруживаем, что, хотя LLM генерируют более длинные ответы с большим количеством галлюцинированных токенов для языков с высоким уровнем ресурсов, нет корреляции между нормированными по длине уровнями галлюцинаций и цифровым представлением языков. Кроме того, мы выясняем, что меньшие по размеру LLM демонстрируют более высокие уровни галлюцинаций по сравнению с более крупными моделями.
English
In the age of misinformation, hallucination -- the tendency of Large Language Models (LLMs) to generate non-factual or unfaithful responses -- represents the main risk for their global utility. Despite LLMs becoming increasingly multilingual, the vast majority of research on detecting and quantifying LLM hallucination are (a) English-centric and (b) focus on machine translation (MT) and summarization, tasks that are less common ``in the wild'' than open information seeking. In contrast, we aim to quantify the extent of LLM hallucination across languages in knowledge-intensive long-form question answering. To this end, we train a multilingual hallucination detection model and conduct a large-scale study across 30 languages and 6 open-source LLM families. We start from an English hallucination detection dataset and rely on MT to generate (noisy) training data in other languages. We also manually annotate gold data for five high-resource languages; we then demonstrate, for these languages, that the estimates of hallucination rates are similar between silver (LLM-generated) and gold test sets, validating the use of silver data for estimating hallucination rates for other languages. For the final rates estimation, we build a knowledge-intensive QA dataset for 30 languages with LLM-generated prompts and Wikipedia articles as references. We find that, while LLMs generate longer responses with more hallucinated tokens for higher-resource languages, there is no correlation between length-normalized hallucination rates of languages and their digital representation. Further, we find that smaller LLMs exhibit larger hallucination rates than larger models.

Summary

AI-Generated Summary

PDF32February 21, 2025