BordIRlines: Een dataset voor het evalueren van cross-linguale opzoeking-verrijkte generatie.
BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation
October 2, 2024
Auteurs: Bryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch
cs.AI
Samenvatting
Grote taalmodellen excelleren in creatieve generatie, maar blijven worstelen met de problemen van hallucinatie en vooringenomenheid. Hoewel retrieval-augmented generation (RAG) een kader biedt om de reacties van LLM's te baseren op nauwkeurige en actuele informatie, roept het nog steeds de vraag op van vooringenomenheid: welke bronnen moeten worden geselecteerd voor opname in de context? En hoe moet hun belang worden gewogen? In dit artikel bestuderen we de uitdaging van cross-linguale RAG en presenteren we een dataset om de robuustheid van bestaande systemen te onderzoeken bij het beantwoorden van vragen over geopolitieke geschillen, die zich bevinden op het snijvlak van linguïstische, culturele en politieke grenzen. Onze dataset is afkomstig van Wikipedia-pagina's met informatie die relevant is voor de gegeven vragen en we onderzoeken de impact van het toevoegen van extra context, evenals de samenstelling van deze context wat betreft taal en bron, op de reactie van een LLM. Onze resultaten tonen aan dat bestaande RAG-systemen blijven worstelen met cross-linguale toepassingen en lijden onder een gebrek aan consistentie wanneer ze worden geconfronteerd met tegenstrijdige informatie in meerdere talen. We presenteren casestudies om deze kwesties te illustreren en schetsen stappen voor toekomstig onderzoek om deze uitdagingen aan te pakken. We stellen onze dataset en code openbaar beschikbaar op https://github.com/manestay/bordIRlines.
English
Large language models excel at creative generation but continue to struggle
with the issues of hallucination and bias. While retrieval-augmented generation
(RAG) provides a framework for grounding LLMs' responses in accurate and
up-to-date information, it still raises the question of bias: which sources
should be selected for inclusion in the context? And how should their
importance be weighted? In this paper, we study the challenge of cross-lingual
RAG and present a dataset to investigate the robustness of existing systems at
answering queries about geopolitical disputes, which exist at the intersection
of linguistic, cultural, and political boundaries. Our dataset is sourced from
Wikipedia pages containing information relevant to the given queries and we
investigate the impact of including additional context, as well as the
composition of this context in terms of language and source, on an LLM's
response. Our results show that existing RAG systems continue to be challenged
by cross-lingual use cases and suffer from a lack of consistency when they are
provided with competing information in multiple languages. We present case
studies to illustrate these issues and outline steps for future research to
address these challenges. We make our dataset and code publicly available at
https://github.com/manestay/bordIRlines.Summary
AI-Generated Summary