BordIRlines: Набор данных для оценки кросс-языкового поисково-дополненного генерирования
BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation
October 2, 2024
Авторы: Bryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch
cs.AI
Аннотация
Большие языковые модели отличаются в творческом генерировании, но продолжают испытывать трудности с проблемами галлюцинаций и предвзятости. В то время как ретриев-усиленное генерирование (RAG) предоставляет рамки для обоснования ответов LLM на точной и актуальной информации, остается вопрос предвзятости: какие источники следует выбрать для включения в контекст? И как их важность должна быть взвешена? В данной статье мы изучаем вызов кросс-языкового RAG и представляем набор данных для исследования устойчивости существующих систем при ответе на запросы о геополитических конфликтах, которые находятся на стыке языковых, культурных и политических границ. Наш набор данных берется из страниц Википедии, содержащих информацию, соответствующую данным запросам, и мы исследуем влияние включения дополнительного контекста, а также состав этого контекста с точки зрения языка и источника, на ответ LLM. Наши результаты показывают, что существующие системы RAG продолжают испытывать трудности с кросс-языковыми случаями использования и страдают от отсутствия последовательности, когда им предоставляют конкурирующую информацию на нескольких языках. Мы представляем кейс-стади для иллюстрации этих проблем и намечаем шаги для будущих исследований по решению этих вызовов. Мы делаем наш набор данных и код общедоступными по адресу https://github.com/manestay/bordIRlines.
English
Large language models excel at creative generation but continue to struggle
with the issues of hallucination and bias. While retrieval-augmented generation
(RAG) provides a framework for grounding LLMs' responses in accurate and
up-to-date information, it still raises the question of bias: which sources
should be selected for inclusion in the context? And how should their
importance be weighted? In this paper, we study the challenge of cross-lingual
RAG and present a dataset to investigate the robustness of existing systems at
answering queries about geopolitical disputes, which exist at the intersection
of linguistic, cultural, and political boundaries. Our dataset is sourced from
Wikipedia pages containing information relevant to the given queries and we
investigate the impact of including additional context, as well as the
composition of this context in terms of language and source, on an LLM's
response. Our results show that existing RAG systems continue to be challenged
by cross-lingual use cases and suffer from a lack of consistency when they are
provided with competing information in multiple languages. We present case
studies to illustrate these issues and outline steps for future research to
address these challenges. We make our dataset and code publicly available at
https://github.com/manestay/bordIRlines.Summary
AI-Generated Summary